论文部分内容阅读
在用户对互联网的使用中,搜索引擎正扮演着越来越重要的角色。通常情况下用户只关心搜索引擎返回的前若干个结果,因此获取返回结果的高排名也就成了越来越多网站特别是商业站点追求的目标。使用不正当手段欺骗搜索引擎,从而获得高于自身价值的排名的行为称为Web spamming。Spamming技术发展迅速,方法多种多样,层出不穷,危害也越来越明显。于是,针对这些spamming技术的应对研究也从各个角度展开。
本文从链接分析角度开展研究,首次提出分别考虑网页的内容质量和链接质量。一个网页的内容质量由所有指向它的网页的内容质量与链接质量共同决定,而网页的链接质量则由所有它指向的网页的内容质量和链接质量共同决定。本文从数学角度证明了新的衡量标准的完备性,并从访问模型角度给予了解释,扩充了已有的随机访问模型,使其更为符合用户多样的浏览行为。本文同时深入研究了种子集合的选取和传播特点,弥补了已有研究中的缺陷和不足。在1300万页面集合上的实验结果显示本文提出的方法在保证优质站点排名的情况下,能更有效地识别spam页面。