论文部分内容阅读
一个普通的Web页面可以被分成信息块和噪音块两部分。基于Web信息检索的第1步就是过滤掉网页中的噪音块。通过网页的特性可以看出,同层网页大多具有相似的显示风格和噪音块。在VIPS算法的基础上,该文提出一种基于同层网页相似性的匹配算法,这个算法可以被用来过滤网页中的噪音块。通过实验检测,算法可以达到95%以上的准确率。