基于网页分块的Web信息抽取技术研究

来源 :南开大学 | 被引量 : 0次 | 上传用户:gr123abc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的飞速发展,Web信息呈现出指数级的增长,WWW中蕴含了海量的信息可供我们利用。但是,人们想要获取一条需要的信息就变得非常困难。如何准确、快速的检索所需信息,成为有待解决的问题。搜索引擎的出现部分缓解了信息搜索的问题,其结果并不能令人满意。Web信息抽取正是顺应网络发展以及人们对于信息需求的要求不断提高而出现的。它为Web数据挖掘、新一代搜索引擎、面向专业领域的垂直搜索、Deep Web数据集成、QA自动问答等系统提供了巨大的数据支持。 本文从实现技术角度,研究了具有代表性的Web信息抽取系统,总结了各个抽取系统的特点,针对其页面解析能力弱、适应性不强等不足之处,形成本文的研究目标,即建立一个与页面表达的领域无关、页面解析能力较强的Web信息抽取系统-WINE(Web Information Extraction的缩写)。该系统充分利用Web页面的位置特征、布局特征、外观特征和内容特征,以页面分块作为数据抽取的基础,以编辑距离作为相似度计算模型。 本文总结了建立WINE系统的四个方面的工作:第一,页面解析,根据Web信息抽取系统对页面解析的要求,利用浏览器控件对Web页面进行解析,解决了页面标记的容错、Javascript和CSS复杂脚本解析等问题;第二,页面分块,利用VIPS算法对Web页面按其语义进行页面分块,通过细粒度划分,有效的对数据记录进行分割;第三,数据区域定位,利用Web页面位置特征,提出一种高效的自顶向下的数据区域块定位方法;第四,结合Web页面块布局等特征与页面的DOM树结构,利用字符串编辑距离,给出了一种有效的噪声记录清除与数据记录抽取方法。 在WINE系统实现过程中,我们采用准确率(Precision)、召回率(Recall)和修正率(Revision)对WINE系统与MDR系统在准确性上进行了对比实验。实验结果表明WINE系统具有良好的性能,有较强的实用价值。
其他文献
受益于制造技术、通信技术以及网络技术的飞速发展,使得无线传感器网络在自然环境、交通运输、军事战争、医疗健康、空间探索以及商业生活等多种场合有着广阔的应用前景。本
随着软件技术的发展和软件项目规模的不断扩大,软件测试的作用越来越重要。然而,软件测试是一项耗时、耗力的工作,如何通过较少的测试用例,来检测出尽可能多的软件错误是人们所面
互联网已经进入多媒体通信时代,流媒体作为一种多媒体传输技术,正逐渐成为互联网的主流应用。如何在Internet网络上提供大规模的流媒体内容分发一直是过去十多年里流媒体研究
本文在研究人工智能的基础上,从软件工程应用基础层面对相关问题进行了比较系统的阐述,提出相应的解决策略和思路。 本文的主要研究内容和结果包括: (1)本文对规划领域建
语文教材是以《语文课程标准》为依据编写的供学生学习语文的文本。教师以教材为媒介,促成儿童和外部世界的沟通,唤起儿童心灵世界的觉醒。  当《义务教育语文课程标准(2011年版)》将“全面提高学生的语文素养”规定为课程目标之时,对语文课程及其语文教材的功能和价值都应给予重新认识。把如今的语文教材视为“文选型”课本,那是用老眼光看新教材。语文教材绝非纯粹的阅读教材,或者说教材中选编的30篇左右的课文,不
依托教材实施课堂教学,应是教学常识;基于“阅读教材”研读实施阅读课堂教学,也已成共识。然而,基于“教材习作”研读来实施习作课堂教学,似乎还远未成为常态院一方面,低水平的教师
一线的语文教师都有这样强烈的体会院学生特别喜欢由教师自主命题的“小作文”,而对于教材中安排的被称之为“大作文”的习作内容,学生的表现则差强人意。为什么教材中的习作内
甲型流感病毒能够突破种属障碍并获得在新宿主中有效感染和传播的适应性突变,从而导致流感大流行。流感大流行的准确时间及规模至今尚无法准确预测。流感病毒大流行的宿主范围依赖于病毒与宿主的相互作用因子以及病毒自身的适应性进化。从流感病毒吸附并感染宿主细胞到病毒复制及子代病毒释放传播过程,有众多病毒与宿主相互作用的限制性因子起着重要作用。本文详细综述了甲型流感病毒宿主特异性与适应性进化的影响因子,以期更好地
随着Internet技术和网络业务的飞速发展,尤其是IP组播技术的产生和发展,IP组播技术独特的优越性越来越突出。随着宽带技术的不断发展,FTP、HTTP、SMTP等传统的数据业务已无法满
随着多媒体技术和互联网技术的快速发展,数字视频信息出现飞速膨胀。在海量的视频数据中,快速、准确地查找到人们所需的视频已成为近年来研究的热点。传统基于内容的视频分析方