网页噪声相关论文
互联网中存在大量的重复网页和网页噪声,用户可能需要花费比预期更长时间以获取所需信息。利用Web数据融合给用户呈现所需信息之前......
信息技术的发展对全世界来说都产生了极大的影响,是当前高技术发展中的主流技术,因为信息在人类生活中无处不在,无时无刻的不影响着人......
目前Web信息量剧增,Internet已经成为人们重要的信息来源。当人们浏览网页时,会出现大量的导航条,广告信息,版权信息以及调查问卷......
随着计算机和网络技术的飞速发展,越来越多的人们开始在网络上搜索他们所需要的信息。然而,在网络上,许多的广告和不相关的链接嵌入在......
为了更好地消除网页噪声,有效地提取网页的主题内容,提出了一种新的网页净化算法.该算法认为网页的主题内容主要包含在〈table〉标......
本文提出了一种基于文字密度的网页正文提取算法。该方法包括了3个步骤:首先对网页进行预处理,然后基于处理后的部分做出该网页的文......
现有钓鱼网页检测算法以网页文本、网站结构或图像等特征进行相似性比较,在性能及效率仍有很大的提升空间。基于此,提出一种融合网......
快速高效地获取网页主题信息的需求使得Web信息抽取技术成为信息技术领域的研究热点。现有的Web信息抽取技术大致可以归纳为基于统......