基于链接分析的搜索引擎反作弊技术研究

被引量 : 0次 | 上传用户:kayeyoo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展和广泛普及,人们网上活动日益频繁。资料显示,目前搜索引擎已经成为因特网的入口,成为人们在网络中获取信息的主要方式。搜索引擎通过分析用户提交的关键词,将之与索引库中已建立的网页进行对比,将相关性最高的网页返回给用户。由于搜索引擎一般索引了数以亿级的网页,而用户通常只关注前10~20条搜索结果,因而对返回结果页的排序成为搜索引擎的一个关键。而对网站建设者来说,获得更好地排名意味着巨大的利益,而建设与维护一个高质量的网站,往往需要花费大笔精力。于是,从搜索引擎诞生的那天开始,作弊也随之而生。作弊是指针对搜索引擎排序算法中存在的漏洞与不足,采取欺骗的手段,获得网站的不正当排名。目前,针对搜索引擎的排序原理,作弊一般分为内容作弊与链接作弊。作弊不仅增加搜索引擎的运行与维护成本,而且降低搜索效率,影响用户感受。因此,进行搜索引擎的反作弊研究,提出有效地反作弊技术对网络的健康发展与信息的迅速传播具有重要意义。本文在已有的链接反作弊技术的基础上,提出通过分析网站或网页的Rank时间序列值,挖掘出作弊页的序列特征。主要内容概括如下:1.首先对搜索引擎的原理,网络结构模型及基于链接的排名算法PageRank与HITS进行分析介绍,然后着重分析了目前针对基于链接的搜索引擎最为普遍的一种作弊方式:链接工厂及其联盟。最终,在分析了各种作弊与反作弊技术的基础上,我们提出可以结合现有反作弊技术,通过分析网页Rank的时间序列值检测作弊网页,并通过实验证实了这种方法的有效性与可行性。2.设计并实现了一个提取DR(Domain Rank)异常值序列的实验。实验利用了企业生产实践中数据比较新比较全的特点,结合链接作弊的特征,分析了DR值序列在作弊检测中的作用,并对实验中海量数据的处理方法进行了介绍。实验通过对比选取不同的统计特征得到的不同可疑作弊页,对实验结果进行了详细的分析,证实了DR值序列分析在反作弊研究中的合理性与有效性。同时,实验充分考虑了对异常值抽取策略的扩展性兼容,以便后续实验。最后,文章对以后还需要做的工作做了进行了总结展望。
其他文献
网络技术的发展已经深刻改变了人们的生活方式。但因为网络中存在着各种不安全因素,导致网络中各类攻击事件的发生,人们对网络服务的使用受到严重影响。在各类攻击中,从DoS攻击
目的比较药物治疗、手法复位和耳石复位仪复位治疗后半规管良性阵发性位置性眩晕(PC-BPPV)的疗效。方法将2012年8月~2013年4月收治的168例PC-BPPV患者随机分为三组,每组各56
可靠性和生存性是无线网络的两个重要特性。特别是随着众多新兴无线网络和移动数据业务需求的快速增长、用户数目的急剧增加以及无线宽带业务的与日俱增,有限的无线网络资源能
进入90年代以来,随着永磁材料性能的不断提高和完善,特别是钕铁硼永磁的热稳定性和耐腐蚀性的改善,加上永磁电机研究开发经验的逐步成熟,永磁电机在国防、工农业生产和日常生活等
目的探析人性化管理在急诊护理中的应用效果。方法以人性化管理前后的2013年12月至2014年4月和2014年5月至2014年9月在本院急诊就诊的各200例患者为调查对象,采用自行设计的
循环机是小氮肥生产必不可少的运转设备,针对循环机运转过程中出现的故障进行了分析,对故障发生、发展的过程,故障发生的原因进行了研究,提出了控制故障的措施。
去人性化是现代主义美学的概念,简单来说就是对我们所熟悉的生活的抽象和排斥。在现实主义、浪漫主义传统中,艺术总是被当作对现实生活的如实再现,文学常常表达人们熟悉的生活经
饮用水中药品与个人护理品(PPCPs)正受到世界范围的广泛关注,而国内尚未见报道。本文采用高效液相色谱串联质谱法,调查了珠三角地区典型城市饮用水系统中39种PPCPs的分布、归宿和
摘要:在全球社保/养老基金投资哲学和投资制度中的重要一环就是非常关注被投资公司的内部治理结构。发达国家的社保/养老基金的稳定和长期的收益通常不是通过交易“用脚投票”
目的:深入探讨STIM1/STIM2对人外周血单核细胞来源的树突状细胞(DCs)表型及免疫功能的影响,包括形态学、细胞表型、吞噬功能及刺激淋巴细胞增殖的能力,以期揭示STIM1/STIM2在自身