Web新闻内容抽取的研究与实现

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:haoz8
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互连网上的信息,很大一部分是以新闻的形式提供给用户的,Web新闻内容抽取的研究,可以帮助用户迅速地从海量互连网信息中获取想要的信息,有很重要的现实意义以及研究价值。 决策树是一种常用于预测模型的算法,在市场划分、金融风险、产品开发以及客户评估中已经得到了比较广泛的应用。通过将大量数据有目的地分类,从中找到一些具有商业价值的、潜在的信息。本文将决策树应用到新闻网页新闻的判决中,通过对目标数据的学习生成决策树,根据生成的决策树对未知的输入数据进行决策,实现对目标数据是否为新闻内容的划分,具有很好的实用效果。主要的工作如下: (1)提出了一种针对Web标准化网站的网页分块算法,该算法自顶向下遍历Div节点树,在遍历的过程中根据当前节点的孩子节点的块重来决定如何对网页进行分块。该算法对于目前国内主流的新闻网站都可以适用。 (2)利用决策树来抽取新闻内容。对每个候选新闻内容块,抽取其特征属性作为决策树学习以及分类的输入,并用学习出来的决策树抽取新闻内容块。在新闻内容块内再次利用决策树分类的方法抽取块内的新闻内容,与块抽取过程不同的是块内新闻内容抽取的对象是粒度更小的文本节点,其所选择的特征属性也有所不同。 由于决策树在训练过程中存在过拟合的问题,本文通过对不同的网站建立相对应的分类模型以提高准确性和适应性,而对于模型库里没有对应模型的页面则使用通用的模型对其进行分类,从而提高抽取新闻内容的准确度。
其他文献
随着Internet的发展,通过互联网络人们可以轻松获得想要的数字产品。但是由于网络共享制度的不规范,对数字产品的非法摄取、使用和分发严重地损害了数字产品版权所有者的合法权
近年来,随着信息传播的全球化,数据容量呈爆炸式增长,海量数据分布在各种异构的存储资源上,给用户的访问增加了难度。因此,如何在广域环境中管理具有异构性的海量数据逐渐成为计算
学位
P2P,即端对端网络,又称为对等计算,就是通信的主机互相互为服务器,每台主机都享受其他机器提供的服务,也为别的机器提供服务。这一模式将服务由中心推向了边缘,充分利用了网络边缘
在数据网格环境下,网格资源、网格系统软件和网格用户行为都具有高度、频繁的动态变化的特性,迫切地需要合适的网格监控系统来实时、准确地获得网格信息,为网格资源调度及性能优
H.264是由ITU-TVCEG和ISO/IEC MPEG联合推出的新一代国际视频编码标准。和以前的视频编码标准相比,它采用了一系列的新技术,使得H.264满足了在尽可能低的带宽下传输高质量的
近年来,软件行业飞速发展。Web技术的发展是个代表,它的发展促进了企业应用软件的开发。由于业务的发展,需求的不断变化,很多企业面临着如何更新他们的系统,以使得系统适应市场的
随着网络的飞速发展,需要应对的网络安全问题也越来越多。诸如数字签名、访问控制、防火墙之类的传统网络安全技术己不能很好地满足目前网络安全的需求。网络安全问题正逐渐
P2P技术为网络应用提供了一种新的思想,它打破了传统的C/S方式的网络应用,引入了对等实体的概念。基于P2P的网络存储技术在P2P覆盖网上构建存储系统,为存储技术研究提供了一种新
电子邮件已经成为人们日常生活中通信、交流的重要手段之一,但垃圾邮件问题也日益严峻,网民平均每天收到的垃圾邮件数量已超过了正常邮件。目前经常采用的垃圾邮件过滤技术一