论文部分内容阅读
随着网络的迅猛发展,人们越来越依赖从网络上获取信息。网络信息资源的保存寿命通常只有几十天,随着时间的推移,大量旧的网络信息资源正在被新的网络信息淹没。如何更迅速更准确地从互联网上采集有用的信息成为研究的热点。大规模的非增量式采集技术已经发展很成熟。为了避免因重复搜集未变化的网页而带来时间上的浪费,增量采集技术应运而生。为了提高更新采集的效率和信息抽取的抽准率,本文主要针对增量更新的Web信息采集及基于隐马尔夫模型的信息提取进行了研究。本文分析了Web信息采集系统的研究背景、研究意义、发展现状以及其面临的各种困难和挑战,阐述了信息采集系统的工作原理和网络爬虫的工作流程,在研究信息采集系统以及信息抽取的核心技术的基础上结合增量信息采集系统的需求,明确了系统开发过程中要解决的问题,提出了具体的设计方案,构建了一个性能良好,具有可扩展性的增量信息采集及信息提取系统。该系统包括如下几个模块:页面采集、页面解析、URL去重、页面去重和更新检测。论文的主要工作以及创新如下:1.引入了目录型网页,提高了发现新网页的效率,采用FWKNN算法有效地识别了目录型网页。2.针对MD5算法过于苛刻的问题,本文采取基于网页框架和规则的方法先对网页去噪后,再对网页正文计算得出唯一的MD5值。此方法在一定程度上提高了网页相似性分析的准确率。3.在预测网页的变化频率方面,通过分析泊松模型存在的缺点,引入了更新频率计算窗口,提出内容分析和网页隶属分析,避免了建立模型前需要大量的训练数据,能更准确地预测网页变化频率。4.在研究隐马尔可夫模型的基础上,改进了基于HMM的信息抽取方法,对含有固定格式的信息项采用正则表达式处理,并对未知观测值概率进行了平滑处理。实验表明该方法获得了更好的抽取效果。最后,通过改进的Web增量采集及信息提取系统的实验,分析了运行的数据,证明系统已成功达到了预期的目标。