基于节点类型标注的网页主题信息提取技术研究

来源 :中国农业科学院 | 被引量 : 0次 | 上传用户:jiangyoung
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,网页数量呈爆炸性增长。网页中包含着丰富的内容,既有用户想要浏览的主题信息,也有对用户形成干扰与主题无关的信息,如页面导航条、推荐链接、广告条、版权声明等,后者通常被称为网页噪声。网页噪声的存在给Web信息检索带来很大的难题,也对诸如网页分类和聚类、知识挖掘、话题检测、个性化信息推荐、数据挖掘等任务造成很大的影响。如果不将噪声去除的话,信息检索系统必然会得出很糟糕的检索结果。因此,去除网页噪声,从网页中抽取主题信息是Web信息检索的一个重要的基础性工作。在Web信息抽取领域,按照网页主题信息抽取算法按照处理方式的不同,可以信息抽取方法分为三类:一、基于模板匹配的方法。这种方法主要基于网站中的页面共享相同的模板,通过将网站的模板识别出来,然后利用模板对页面进行匹配以识别网页主题信息。二、基于机器学习的方法。这种方法主要适用于大规模网页数据集的处理,首先利用人工标注的网页数据训练出网页主题信息分类模型,然后利用分类器来识别网页中的主题和非主题信息。三、基于启发式规则的方法。这类方法,基于页面中的一些视觉特征或结构特征或内容特征来构建启发式规则集合。考虑到基于启发式规则的信息抽取方法具有较高的算法效率,以及考虑VIPS算法存在的不足,本文结合对网页噪声特点以及网页性质的观察和统计,提出了一种基于DOM节点类型标注(Node Type Annotation)的主题信息抽取算法——NTA算法。首先依据网页中噪声存在的形式,定义了4种节点类型:文本型节点、链接型节点、图片型节点和可忽略型节点,并且定义了节点的内聚度(Do C)用于反映节点内容的一致性。通过计算DOM结构中每个节点的内容特征来确定节点类型以及节点的内聚度,并给每个节点添加类型和内聚度两个属性。在主题信息抽取阶段,借助阈值以及节点文本密度来识别节点类型以及比较内聚度来获取所需的正文节点,并针对图片和链接的筛选问题作出相应的特殊处理,最后整合得到网页的主题信息。本文方法弥补了VIPS不能抽取网页主题信息的不足并且具有较好的算法效率,方法不依赖特定标签因而也具有更好的通用性。最后,基于本文NTA算法开发了一款网页正文提取工具Web Clipper,从7大门户网站选取了100多个新闻类网页进行了测试,并且也与目前市面上的三款同类工具有道云剪报、印象笔记悦读以及国外的Readability做了对比实验。初步实验结果显示,本文所提出的算法的平均查全率为98.15%,平均查准率为92.41%,NTA方法在F1指标上为95.1%,比Evernote工具高出0.3%,比YNote工具高出5.01%,这在一定程度上证实了本文方法的有效性和实用性。
其他文献
随着现代服务业的蓬勃发展,服务模块化理论也在被越来越多的学者所关注,作为一种解释服务产业布局以及企业间相关协作分工的理论,它通过系统的标准界面规则和独特的服务创新构架
瑞昌县大桥公社大桥大队,是赣北红壤丘陵棉区,在长期的生产实践中,积累了改造红壤土夺得棉麦双高产的许多经验,特别是文化大革命和批林批孔运动,大大激发了广大干部、社员的
大都市圈创新体系理论构建与发展既是当前创新资源全球化配置趋势的迫切要求,也是区域创新体系理论亟待补充的重要研究方向。现实活动揭示,大都市圈的空间层级结构有利于创新主
学位
本论文的主旨在于针对知识经济下知识资本资源的作用日益突出的实际,将知识资本理论引入城市核心竞争力研究领域,构建基于知识资本的城市核心竞争力理论分析框架。继而在该框架
种子粒型大小,对生活力强弱、幼苗长势、增长效果等有较大的影响。陈鸿佑教授在《提纯复壮繁育良种》一书中指出:大粒种子比小粒种子增产10.2~34%,比原样未分级种子增 Seed
由中华全国新闻工作者协会召集,由人民日报编委会主持的首都各报副刊工作座谈会,于五月二十二、二十三日下午举行。会上各报交流了情况和经验,着重谈到了怎样按副刊的特点宣
一、植株的发育阶段Salter和Ames第一次强调了利用植株分析的结果进行营养诊断的方法,关键是确定适当的植株发育阶段.因为,在不同的发育阶段植株营养元素的浓度受环境和其他
1973年,嘉兴地区的春花作物遭到了长期阴雨。据嘉兴气象站资料,1972年10月中旬至1973年5月下旬,春花生育期间的220多天中,雨日为106天,比常年增长22.1%;降雨量858.4毫米,比常
某报发表了《喝酒的害处》一文,文中有一段话这样讲:“即使每次喝几杯,长期下去,往往会引起胃病、食道癌、肝硬化等疾病。此外,喝酒还能成为缩短寿命的因素。”我们认为喝过
随着消费者对产品要求的不断提高,退货已成为卖方必须考虑的因素,退货品的处理既关系到消费者对卖方的信任及对产品的忠诚度,又关系到制造商的生产与零售商的订购,如何处理退货品已成为提高供应链效率的全新领域,同时,信息传播手段的改进加快了产品信息在消费者之间的传递,引起销售期内的需求波动,而传统的一次订购策略建立在需求不变的基础上,因此基于消费者退货的二次订购策略及契约具有重要的现实意义和研究价值。零售商