基于改进DOM树的主题型网页去噪声研究

来源 :西南大学 | 被引量 : 0次 | 上传用户:comeonlinli
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的高速发展,Web上承载的网页数据也与日俱增。一个普通网页上包含的数据一般可以分成两部分:内容块和噪声块,其中噪声块主要包括网页顶部或侧边的导航栏、四周的广告条和底部的版权信息等。噪音数据几乎占据网页的一半比例,并且这个比例还在持续增长。网页噪音数据的持续增长不仅使用户更难获取与主题相关的信息,而且加大用户搜索有用信息的效率,因此如何快速去除网页上与主题信息无关的噪音信息显得尤为重要。网页去噪的方法一般分为基于网页模板的去噪方法、基于网页视觉信息的去噪方法和基于DOM树的去噪方法。本文主要基于DOM树结构对主题型网页进行去噪处理。在以往的基于DOM树的网页去噪研究中,研究者大多根据设定的规则首先将DOM树节点划分不同类型,然后根据节点类型判断哪些是噪音节点。但根据某单一因素便过早将节点划分不同类型,可能会造成节点类型误判,从而影响后续的去噪效果。另外本文通过分析国内几大门户网站的二级详情页,发现主题型的网页具有主题突出、文字内容较多、图片和链接较少等特征。针对以往基于DOM树研究的不足和主题型网页的结构特点、文本特点、标签语义特点等,本文在传统DOM树基础上构建一种改进的DOM树模型,并基于此改进的DOM树模型给出了主题型网页的去噪方法,研究的主要内容如下:(1)将HTML标签依据与主题相关性和节点划分粒度分为主题块标签和非主题块标签。综合考虑主题型网页中标签与主题语义关联度、节点内链接特征值、节点内文本长度、节点内子节点纯文本节点数、节点内图片个数,在构建DOM树时依次给Node节点添加自定义属性tagDeg、linkVal、text Len、textNum、picNum。(2)提出了改进DOM树模型。首先把HTML文档解析成DOM树结构,然后遍历DOM树依次给DOM树中节点添加自定义属性,在对DOM内非主题块节点进行合并时,同时也对节点内新添加属性tagDeg和link Val的值进行累加计算,最后构建只包含主题块节点的改进的DOM树模型。(3)给出了基于改进DOM树模型的网页去噪方法。该方法主要包括网页预处理、构建改进DOM树模型和改进DOM树网页去噪。其中,改进DOM树网页去噪中通过分析对比节点内自定义属性值与设定的阈值,从而确定并删除噪音节点,达到网页去噪的目的。最后通过实验分析,表明该方法对主题型网页具有较好的去噪效果。
其他文献
图像数据作为互联网数据中重要的组成部分,随着互联网信息时代的快速发展以及拍照智能手机的大范围普及,在以惊人的速度不断地积累。相比文本数据,图像数据的优势在于提供了
NPR(非真实感绘制)是把绘画艺术和计算机技术相结合研究的领域,它专注于抽象与加工真实的场景,使人们能够获得更深刻、更重要、更直观的印象,因此已在教育、艺术等领域有了广泛
随着社会发展,环境保护刻不容缓。环境保护智能化、网络化是未来环境保护工作的重点。环保信息化势在必行,而物联网的迅速发展,为环境保护提供了新技术、新方法和新思路。基于物
近年来,云计算作为一种新的高性能计算模式成为广大研究学者的研究热点,各大公司也纷纷推出自己的云平台,如加利福尼亚大学研究的Eucalyptus, Apache基金会的Hadoop平台、以
图像分割是数字图像处理的重要研究方向,许许多多的图像需要对其进行图像分割,提取目标图像之后才能进行下一步的处理与信息提取。图像分割的方法也得到了如火如荼的发展。但是
近年来,随着互联网的发展和企业信息化进程的推进,国内各主要钢厂投入了大量的人力物力都先后建立起数量众多的信息系统。这些信息系统组成了一个信息库,通常信息库由很多信息源
无线传感器网络具有节点分布稠密、能量有限、节点计算能力和存储空间有限、容易遭受安全攻击等特点。面临的威胁不单是外部攻击者对网络发起的攻击,网络内部节点也有可能被捕
近年来,随着计算机的普及和应用技术的发展,人们获取数据的能力得到了极大提高。数据流作为数据挖掘的一种新的研究内容,已经出现在各种应用领域。区别于传统的存储在磁盘上的静
集成学习系统是近年来机器学习和模式识别领域中的研究热点。由于其在处理维数高、样本少和数据结构复杂的这类问题中拥有独特的优势,最近已有越来越多针对基因微阵列数据的研
从行为心理学发展而来,介于监督学习和非监督学习的强化学习算法,目前是机器学习研究领域的热点,越来越受到关注。现有的强化学习算法如Sarsa学习算法、Q学习算法等需要大量的存