【摘 要】
:
Web robot(网络爬虫)作为一种网络资源获取程序,在广泛应用于信息搜索的同时,也带来了一些负面影响。Robot对网站资源的集中获取导致网络流量增加,使网站响应性能下降;Robot
【出 处】
:
沈阳航空工业学院 沈阳航空航天大学
论文部分内容阅读
Web robot(网络爬虫)作为一种网络资源获取程序,在广泛应用于信息搜索的同时,也带来了一些负面影响。Robot对网站资源的集中获取导致网络流量增加,使网站响应性能下降;Robot对网站的访问严重影响基于日志的各种数据挖掘工作的结果;恶意robot会造成隐私数据泄漏、资源滥用、点击欺骗等问题。因此出现大量robot检测技术对robot进行检测,并在必要的时候屏蔽其对网站的访问。本文介绍了现有的robot检测技术,并对他们所采用的方法、技术和优缺点做了详细的论述。介绍了陷阱技术在robot检测中的应用现状,针对陷阱检测中陷阱设置策略简单、缺乏相应理论和模型支持等问题,提出了一种新的robot检测模型——基于陷阱技术的robot检测模型。基于陷阱技术的检测模型,采用隐藏链接来捕获robot,可移植性强,可方便的布设到需要进行robot检测的网站中。陷阱检测模型和其它检测技术一样不但具有常规robot的检测能力,而且由于陷阱的特殊森林结构,使其具有分布式robot的检测和区分能力,与其他检测技术相比,体现了陷阱技术的优越性。文中结合robot访问网站的覆盖率和陷阱链接的布置率两个因素,对模型的检测能力做了详细的分析,指出了陷阱检测模型的优缺点,详细探讨了陷阱的布置策略对robot检测效果的影响。最后,设计了具体实验,结合陷阱检测模型特点,对模型的各个功能模块做了具体实现,开发了一个robot检测分析系统,并发布到互联网上。通过对实验数据进行分析,验证了陷阱检测模型对robot检测具有较好的准确率和召回率。
其他文献
随着计算机和网络技术的飞速发展,数据已呈爆炸式的增长,软件错误、硬件故障、人为误操作、病毒以及自然灾害等原因常引起数据的丢失,而数据备份技术的出现为防止数据丢失提
在大数据和云计算得到广泛应用的今天,传统的IP网络架构成为了制约整个网络性能发展的重要因素,近几年,对于改变IP网络网络僵化问题的研究取得了很大的进展。SDN被业界专家认
近年来,移动计算设备的计算能力和存储能力不断提高。与此同时,移动设备上的无线通信技术也取得了快速的发展。这些设备间通过短距离通信协议互联形成了一种新型的网络--移动
随着互联网信息的飞速增长,越来越多的人选择搜索引擎作为网络信息获取的主要手段。然而互联网上的信息浩如烟海,内容庞大,如何准确、全面的获取特定领域的网络信息成为搜索
随着科技的进步和国际技术交流的深入,大量新的科技术语会被引入到另外一种语言中使用,这些术语通常不是被另外创造新词表示。日语也从别的语种(特别是英语)中引入词语,并且
随着3D扫描技术的发展,三维网格模型成为了继声音、图像和视频以后的第四种多媒体数据类型。该类媒体在互联网、娱乐、制造业等领域的应用越来越广泛,所使用的模型也变得更加
近年来,无线网络作为一种新的网络结构,越来越多的应用在校园区域,军事领域,医疗领域和其它的公共场合等。随着网络在各个领域的应用,对无线网络的管理和安全的研究也提到重
随着数据库技术的日新月异,交通网数据库作为移动对象数据库的重要分支,应用越来越广泛。目前,交通网数据库的研究在模型、存储结构、查询及索引等方面存在许多问题。
本文
片上多线程(Chip Multithreading,CMT)体系结构中,多个线程通过共享并竞争处理器上的多种硬件资源来提高资源利用率及性能,片上资源分配问题因此成为CMT的核心问题。前人从不
随着现代生活自动化程度越来越高,以及计算机技术、通信技术的迅猛发展和国家信息化进程的加速,信息自动化处理技术的应用越来越广泛。字符识别技术作为信息自动化处理技术的一