论文部分内容阅读
互连网上的信息,很大一部分是以新闻的形式提供给用户的,Web新闻内容抽取的研究,可以帮助用户迅速地从海量互连网信息中获取想要的信息,有很重要的现实意义以及研究价值。
决策树是一种常用于预测模型的算法,在市场划分、金融风险、产品开发以及客户评估中已经得到了比较广泛的应用。通过将大量数据有目的地分类,从中找到一些具有商业价值的、潜在的信息。本文将决策树应用到新闻网页新闻的判决中,通过对目标数据的学习生成决策树,根据生成的决策树对未知的输入数据进行决策,实现对目标数据是否为新闻内容的划分,具有很好的实用效果。主要的工作如下:
(1)提出了一种针对Web标准化网站的网页分块算法,该算法自顶向下遍历Div节点树,在遍历的过程中根据当前节点的孩子节点的块重来决定如何对网页进行分块。该算法对于目前国内主流的新闻网站都可以适用。
(2)利用决策树来抽取新闻内容。对每个候选新闻内容块,抽取其特征属性作为决策树学习以及分类的输入,并用学习出来的决策树抽取新闻内容块。在新闻内容块内再次利用决策树分类的方法抽取块内的新闻内容,与块抽取过程不同的是块内新闻内容抽取的对象是粒度更小的文本节点,其所选择的特征属性也有所不同。
由于决策树在训练过程中存在过拟合的问题,本文通过对不同的网站建立相对应的分类模型以提高准确性和适应性,而对于模型库里没有对应模型的页面则使用通用的模型对其进行分类,从而提高抽取新闻内容的准确度。