论文部分内容阅读
网页一般总是包含很多广告条,导航栏,以及版权声明等信息。这些不相关的信息构成了网页内容的一部分,它们将会严重影响信息检索的效果。研究者们发现一篇网页可以被划分成不同的内容块,并且这些块在网页中的重要程度不尽相同。因此有效区分信息主题块和噪音块是提取网页中有价值的内容的有效方法。
网页正文提取能够对网页中的重要的主题信息进行提取,因此正文提取对于网页数据挖掘有着重要的作用,也是近年来的研究热点。本文工作的目标是通过研究网页主题块的检测方法来对网页正文进行提取,论文的主要贡献包括以下几个方面:
1.提出了一种基于主题块检测的网页正文提取方法
本文结合实际的应用需求,阐述了基于网页主题块检测的网页正文提取技术,并给出了实验评测结果。本文提出的网页正文提取技术能够同时保留网页正文的文本和显示风格,这是本文方法的创新之处。
2.提出了一种新型的基于“耦合度”和“投影”的网页主题块检测方法
本文提出了一种新型的检测网页中的主题块的方法,“耦合度”依据的主要思想是不同网页的网页块间越相似,则这些网页分块越可能是噪音块:“投影”依据的主要思想是网页块与其所在网页的其他网页分块越相关,则它越可能是主题块。实验表明本文提出的网页主题块检测方法取得了较好的效果。
3.设计并实现了基于主题块检测的网页正文提取系统
本文设计并实现了以主题块检测为技术核心的网页正文提取系统,系统主要包括网页正文块的检测和正文块的噪音过滤两个模块。实验表明文本实现的网页正文提取系统在正文提取方面取得了较好的效果。