论文部分内容阅读
随着互联网的快速发展,网页数量呈爆炸性增长。网页中包含着丰富的内容,既有用户想要浏览的主题信息,也有对用户形成干扰与主题无关的信息,如页面导航条、推荐链接、广告条、版权声明等,后者通常被称为网页噪声。网页噪声的存在给Web信息检索带来很大的难题,也对诸如网页分类和聚类、知识挖掘、话题检测、个性化信息推荐、数据挖掘等任务造成很大的影响。如果不将噪声去除的话,信息检索系统必然会得出很糟糕的检索结果。因此,去除网页噪声,从网页中抽取主题信息是Web信息检索的一个重要的基础性工作。在Web信息抽取领域,按照网页主题信息抽取算法按照处理方式的不同,可以信息抽取方法分为三类:一、基于模板匹配的方法。这种方法主要基于网站中的页面共享相同的模板,通过将网站的模板识别出来,然后利用模板对页面进行匹配以识别网页主题信息。二、基于机器学习的方法。这种方法主要适用于大规模网页数据集的处理,首先利用人工标注的网页数据训练出网页主题信息分类模型,然后利用分类器来识别网页中的主题和非主题信息。三、基于启发式规则的方法。这类方法,基于页面中的一些视觉特征或结构特征或内容特征来构建启发式规则集合。考虑到基于启发式规则的信息抽取方法具有较高的算法效率,以及考虑VIPS算法存在的不足,本文结合对网页噪声特点以及网页性质的观察和统计,提出了一种基于DOM节点类型标注(Node Type Annotation)的主题信息抽取算法——NTA算法。首先依据网页中噪声存在的形式,定义了4种节点类型:文本型节点、链接型节点、图片型节点和可忽略型节点,并且定义了节点的内聚度(Do C)用于反映节点内容的一致性。通过计算DOM结构中每个节点的内容特征来确定节点类型以及节点的内聚度,并给每个节点添加类型和内聚度两个属性。在主题信息抽取阶段,借助阈值以及节点文本密度来识别节点类型以及比较内聚度来获取所需的正文节点,并针对图片和链接的筛选问题作出相应的特殊处理,最后整合得到网页的主题信息。本文方法弥补了VIPS不能抽取网页主题信息的不足并且具有较好的算法效率,方法不依赖特定标签因而也具有更好的通用性。最后,基于本文NTA算法开发了一款网页正文提取工具Web Clipper,从7大门户网站选取了100多个新闻类网页进行了测试,并且也与目前市面上的三款同类工具有道云剪报、印象笔记悦读以及国外的Readability做了对比实验。初步实验结果显示,本文所提出的算法的平均查全率为98.15%,平均查准率为92.41%,NTA方法在F1指标上为95.1%,比Evernote工具高出0.3%,比YNote工具高出5.01%,这在一定程度上证实了本文方法的有效性和实用性。