基于蚁群优化的网页作弊检测技术研究

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:zy205806
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网已成为一个重要的信息和资源共享平台,互联网用户不仅可以在网上处理各种事务,还可以在网上搜索自己想要的信息。给定一个具体的查询,搜索引擎会根据自己的排名机制对互联网上的网页资源进行排序,然后将与用户查询相关的结果返回给用户,但是用户一般比较倾向于浏览搜索引擎返回结果的首页记录,因此,网站在搜索引擎返回结果中的位置就成为了网络服务提供者所关注的问题。一些黑帽SEO采用不正当的手段欺骗搜索引擎以获取网站的高排名,这种欺骗搜索引擎以获取高排名的行为被称为网页作弊。网页作弊不但降低了搜索引擎检索信息的质量,而且还给互联网用户造成了巨大的经济损失。因此,如何检测网页作弊已成为当前互联网最为迫切的任务之网页作弊检测问题可以看作是一个二元分类问题,本文将数据集WEBSPAM-UK2006的直接特征、内容特征和链接特征结合起来构建实验数据集,然后采用基于蚁群优化的网页作弊检测算法来对网页作弊进行检测。在数据预处理阶段,本文首先采用k-means算法解决了数据不平衡问题,然后采用基于信息增益的特征选择算法筛选出实验特征子集,最后对实验特征子集进行基于信息熵的离散化处理。在分类模型训练阶段,本文采用蚁群优化算法从训练集中提取出分类规则并对分类规则进行修剪处理以形成分类模型。在分类检测阶段,将测试样本输入分类模型后,分类模型将能够很好地预测出测试样本的类别。最后,本文在实验数据集WEBSPAM-UK2006上进行了多组实验,并将本文的检测算法与其他检测算法进行了对比。实验结果显示,本文提出的基于蚁群优化的检测算法能够获得非常好的检测效果。
其他文献
Android自诞生以来就一直在快速发展,如今已经超越Windows成为市场占有率最高的操作系统。但同时恶意软件在Android应用市场中也出现了爆炸性增长,它们的行为也越发猖獗。这些
现有的通信网络是多种网络并存的网络:有线网络和无线网络并存;同种协议不同发展阶段的网络并存;不同协议的网络并存。不同的网络形成了复杂的异构网络环境,在相同的区域不同网
随着无线通信的高速发展,对于频谱资源的需求也越来越多。然而频谱资源是有限的,所以如何将有限的频谱资源合理分配对于无线通信至关重要。认知无线网络因此应运而生。传统的认
在未来无线通信中,由于无线用户数量及业务量的俱增,无线网络在向用户提供各种业务的同时,需保证多业务的服务质量(QoS)要求,另外,随着节能减排与绿色移动通信的需求,在保证
近年来,立体视频凭借其强烈的真实感、突出的交互性逐渐进入了家庭和大众娱乐市场。随之而来的是,三维电影在各大影院纷纷上映,以迅猛之势占据了电影产业的制高点;三维电视(Th
阵列波导光栅(AWG)解调系统是一种新型光纤光栅(FBG)解调系统,实现该解调系统的微型化、紧凑化成为重要的研究方向。传统的FBG解调用AWG体积较大,无法实现微系统集成,但是采用SO
Wi-Fi技术给人们的工作和生活带来了很多方便,发挥着越来越重要的作用。而目前主流的Wi-Fi设备工作在2.4 GHz频段,该频段已经相对拥挤,周围设备使用较多时,容易出现信号干扰
在雷达信号处理与射频段信号谱分析中,光谱烧孔技术因烧孔晶体所据有的高达数十GHz的非均匀展宽线宽和几百KHz的均匀展宽线宽等特性,弥补了传统电学处理射频信号的不足,从而成为目前研究的热点问题。本文研究了基于光学Bloch方程的Tm3+: YAG晶体的光谱烧孔特性。具体包括:晶体材料的厚度对烧孔孔深的影响、激光写入光强对烧孔的孔深和孔宽的影响。本文主要研究内容及创新点包括:1.建立了晶体厚度在低温环
IEEE802.15.4是针对低成本、低功耗、低传输速率的无线自组网设计的协议,它定义了介质访问控制层(Media Access Control, MAC)和物理层的规范。此标准自推出,就被认为是适合
数字音频水印和数字签名现如今已经被广泛应用于取证领域,但是这两种技术在使用时需要借助于预先处理的信息,因此在许多实际应用场合,由于无法实现取证而限制了它们的适用范围。