链接作弊垃圾网页的检测算法研究

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:yzl1983523
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅速普及,Web上的垃圾网页也逐渐增多,这极大的影响了搜索引擎的精度和效率,如何识别垃圾网页已经成为互联网搜索所面临的最严峻的挑战之一。通过对垃圾网页深入的研究,多数网页作弊利用了链接的特点。本文在对各类垃圾网页链接作弊检测技术做了深入研究综述的基础上,设计垃圾网页检测系统框架,然后在这一框架下研究如何对网页的特征属性进行分析和分类器设计。论文中首先研究优化了一个基于随机森林算法的链接作弊分类器。通过对网页进行基于内容和链接等特征属性的综合提取,采用该分类器对测试集进行第一阶段分类。然后针对“链接工厂”等链接作弊的常见形式,采用SpamRank算法进行检测。通过对垃圾页面种子集赋予SpamRank权值,并在垃圾页面及其链接页面之间相互传递SpamRank值,构建Web图并对其进行遍历,从而达到对测试集进行第二阶段分类的目的。最后采用IN-OUT算法对链接工厂的检测结果进行了分析。本文最后利用Web Spam Challenge2008推出的检测研究用数据集WEBSPAM-UK2007分别训练分类器,同时对链接型垃圾网页检测算法进行了实验,并用各种评测指标和算法对比等对实验结果进行了详细的分析。结果表明,本论文实现的链接型垃圾网页检测系统达到了预期的目标。
其他文献
随着信息技术的不断发展,视觉信息也日渐丰富,特别是电子数码设备的普及,人们视野中的数字图像数据开始呈几何级数的态势增长。如何快速检索出所需图像成为人们关注的焦点。
随着我国经济发展,基础设施日趋完善,其中桥梁的数量也日益增加,这就增加了桥梁管理人员的工作量。因此,为了减少道路桥梁的管理工作量,更为有效对桥梁进行管理,桥梁数字化管理成为
随着中国铁道线路的快速发展和建设,养路机械产品市场竞争变得越来越激烈。而养路机械售后服务质量在提高企业市场竞争力和保持铁道线路良好状态中起着非常重要的作用,通过运
随着网民规模、网站规模的持续增长,互联网上的信息量快速递增,信息检索技术越来越被人们所重视。蒙古文作为内蒙古自治区的主体民族文字和官方文字,在各个领域中都被广泛使
视频监控系统在人们的日常生活中越来越普及,为人们的生活提供了安全和便捷。随着技术发展,为了更加提高监控系统的智能化,各种关于监控系统的智能化技术成为研究热门。在智能化
超点是在一个测量区间内链接了大量源IP(宿IP)的宿IP(源IP),实时超点检测对网络安全和管理具有重要意义。网络中的许多安全事件,如分布式拒绝服务攻击(DDoS)、蠕虫病毒、端口
图形显示控制器作为实现人机交互的重要部件之一被广泛应用于各个领域,针对嵌入式领域的图形显示控制器设计和优化已经成为研究热点。近年来液晶显示技术的发展使得液晶显示
随着云计算和物联网技术的兴起,联网设备逐渐向移动化、小型化、功能集成化发展,会话初始化协议(Session Initiation Protocol, SIP)协议以其无缝、灵活、可扩展的特性顺应了
随着互联网的不断发展,网络上的信息量也在不断的增长,其中各种各样的学习资源也在不断增加,这为人们学习提供了充足的资源,但同时也为用户获得准确的资源带来了很大的难度。
交通标志检测与识别作为辅助驾驶及智能交通系统的一部分,具有广泛的应用前景。由于场景的复杂性以及交通标志的多样性,目前对交通标志的自动检测和识别水平还不能满足实际的