增量式Web信息采集与信息提取系统的研究与实现

被引量 : 19次 | 上传用户:mavylin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络的迅猛发展,人们越来越依赖从网络上获取信息。网络信息资源的保存寿命通常只有几十天,随着时间的推移,大量旧的网络信息资源正在被新的网络信息淹没。如何更迅速更准确地从互联网上采集有用的信息成为研究的热点。大规模的非增量式采集技术已经发展很成熟。为了避免因重复搜集未变化的网页而带来时间上的浪费,增量采集技术应运而生。为了提高更新采集的效率和信息抽取的抽准率,本文主要针对增量更新的Web信息采集及基于隐马尔夫模型的信息提取进行了研究。本文分析了Web信息采集系统的研究背景、研究意义、发展现状以及其面临的各种困难和挑战,阐述了信息采集系统的工作原理和网络爬虫的工作流程,在研究信息采集系统以及信息抽取的核心技术的基础上结合增量信息采集系统的需求,明确了系统开发过程中要解决的问题,提出了具体的设计方案,构建了一个性能良好,具有可扩展性的增量信息采集及信息提取系统。该系统包括如下几个模块:页面采集、页面解析、URL去重、页面去重和更新检测。论文的主要工作以及创新如下:1.引入了目录型网页,提高了发现新网页的效率,采用FWKNN算法有效地识别了目录型网页。2.针对MD5算法过于苛刻的问题,本文采取基于网页框架和规则的方法先对网页去噪后,再对网页正文计算得出唯一的MD5值。此方法在一定程度上提高了网页相似性分析的准确率。3.在预测网页的变化频率方面,通过分析泊松模型存在的缺点,引入了更新频率计算窗口,提出内容分析和网页隶属分析,避免了建立模型前需要大量的训练数据,能更准确地预测网页变化频率。4.在研究隐马尔可夫模型的基础上,改进了基于HMM的信息抽取方法,对含有固定格式的信息项采用正则表达式处理,并对未知观测值概率进行了平滑处理。实验表明该方法获得了更好的抽取效果。最后,通过改进的Web增量采集及信息提取系统的实验,分析了运行的数据,证明系统已成功达到了预期的目标。
其他文献
高校教师绩效管理是教师人力资源管理中的重要思想。随着教师人力资源管理思想的兴起,高校教师绩效管理也开始越来越受到研究者和学校管理者的重视。研究者开始从各个方面从
城市快速路是指城市道路中设有中间带,具有单向双车道机动车道或者以上的多车道,全部或部分采用立体交叉与控制出入,供车辆以较高速度行驶的道路,为城市中大量、长距离、快速
正月上旬,湖南卫视《歌手》开播,哈萨克斯坦歌手迪玛希率先出场,带来一首《歌剧2》,凭借海豚音和高颜值一举拿下冠军,成为最大“黑马”。随后,在湖南卫视《全球华侨华人春节大联欢
报纸
当前,全球经济竞争的重点正从货物贸易转向服务贸易,服务贸易已经成为衡量一国国际竞争力强弱的一项重要标准。科学分析影响我国服务贸易发展的现状并提出相应对策,可以更好
α-淀粉酶是消化酶的一种,属于水解酶类,是α-淀粉酶家族(EC 3.2.1.1)中的重要成员。α-淀粉酶是最重要的工业酶制剂之一,广泛应用于食品工业、淀粉加工业、纺织工业、发酵工业
中国是一个拥有13亿人口的发展中农业大国,农业在中国历来被认为是安天下、稳民心的战略产业。而传统的农业发展模式已经不能满足社会发展的需要,因此只有依靠高科技手段来发
公安边防反情报体系的建设,是对公安边防部门所进行的工作成绩的一种保护。特别是在侦办公安边防部门所管辖的刑事案件时,反情报系统的建设能在很大程度上防止严重的失泄密事
近些年来,在现代物流发展的新形势下,我国企业包括很多中小制造企业出现了“大而全、小而全”的自营物流错误倾向,导致企业运输效率偏低,配送成本居高不下。因此,如何提高中
随着新型传感器的飞速发展,人们获取图像的能力也迅速提高,但是一种图像数据或者单一的传感器所获得的图像信息往往无法满足实际需求。图像拼接就是指将两个或两个以上关于某
在大数据环境下,个人信息的刑法保护存在现实的困境。侵犯公民个人信息罪与窃取、收买、非法提供信用卡信息罪在侵犯的法益、行为方式方面存在问题。个人信息不仅关系个人法