论文部分内容阅读
随着Internet的高速发展,Web上承载的网页数据也与日俱增。一个普通网页上包含的数据一般可以分成两部分:内容块和噪声块,其中噪声块主要包括网页顶部或侧边的导航栏、四周的广告条和底部的版权信息等。噪音数据几乎占据网页的一半比例,并且这个比例还在持续增长。网页噪音数据的持续增长不仅使用户更难获取与主题相关的信息,而且加大用户搜索有用信息的效率,因此如何快速去除网页上与主题信息无关的噪音信息显得尤为重要。网页去噪的方法一般分为基于网页模板的去噪方法、基于网页视觉信息的去噪方法和基于DOM树的去噪方法。本文主要基于DOM树结构对主题型网页进行去噪处理。在以往的基于DOM树的网页去噪研究中,研究者大多根据设定的规则首先将DOM树节点划分不同类型,然后根据节点类型判断哪些是噪音节点。但根据某单一因素便过早将节点划分不同类型,可能会造成节点类型误判,从而影响后续的去噪效果。另外本文通过分析国内几大门户网站的二级详情页,发现主题型的网页具有主题突出、文字内容较多、图片和链接较少等特征。针对以往基于DOM树研究的不足和主题型网页的结构特点、文本特点、标签语义特点等,本文在传统DOM树基础上构建一种改进的DOM树模型,并基于此改进的DOM树模型给出了主题型网页的去噪方法,研究的主要内容如下:(1)将HTML标签依据与主题相关性和节点划分粒度分为主题块标签和非主题块标签。综合考虑主题型网页中标签与主题语义关联度、节点内链接特征值、节点内文本长度、节点内子节点纯文本节点数、节点内图片个数,在构建DOM树时依次给Node节点添加自定义属性tagDeg、linkVal、text Len、textNum、picNum。(2)提出了改进DOM树模型。首先把HTML文档解析成DOM树结构,然后遍历DOM树依次给DOM树中节点添加自定义属性,在对DOM内非主题块节点进行合并时,同时也对节点内新添加属性tagDeg和link Val的值进行累加计算,最后构建只包含主题块节点的改进的DOM树模型。(3)给出了基于改进DOM树模型的网页去噪方法。该方法主要包括网页预处理、构建改进DOM树模型和改进DOM树网页去噪。其中,改进DOM树网页去噪中通过分析对比节点内自定义属性值与设定的阈值,从而确定并删除噪音节点,达到网页去噪的目的。最后通过实验分析,表明该方法对主题型网页具有较好的去噪效果。