面向大规模网络流量的URL实时分类关键技术研究

被引量 : 10次 | 上传用户:dorothyhe
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着互联网的迅速发展以及网络业务的不断扩大,互联网的网页规模呈现“基数大、增长快、更新频繁”的发展趋势。以中国为例,如《中国互联网站发展状况及其安全报告(2015)》指出,截至2014年12月底,中国网站总量达到364.7万余个,同比年度增长约14.1万个,为中国网站提供互联网接入服务的接入服务商1,068家,同比年度净增长86家。随着网站数量及网页规模不断扩大,互联网服务逐步渗透到人们日常生活的方方面面。丰富的互联网服务一方面极大改善了人们的日常生活;另一方面,也给一些网络攻击行为(包括钓鱼网页、网页木马等)提供了广阔的发展空间。这些网络攻击行为常常围绕网页展开,或者设计陷阱或者挖掘漏洞,利用各种攻击技术对人们的网络安全构成严重威胁。以URL为例,卡巴斯基的统计数据显示,仅2012年,恶意URL共出现1.39亿次,并在当年87.39%的网络攻击中扮演重要角色。当前,随着互联网的蓬勃发展,网络攻击不断增多,恶意URL规模持续扩大,网络安全形势日益严峻。作为抵御网络攻击的核心安全技术之一,URL实时分类技术可以帮助人们避免恶意网页引起的安全威胁,有效保障个人隐私安全及网络交易安全,进而提升网络安全。为此,研究人员已经提出了很多方法和技术。但在URL规模持续扩大的今天,抵御网络攻击依旧面临着许多新的挑战:如URL资源众多、URL数据集不均匀、恶意URL逃逸技术升级等。在这些挑战面前,传统方法暴露出如准确率不高、内存占用过高等缺陷。为了避免这些缺陷,应该对新的URL实时分类技术开展研究,通过实现高效、可靠、准确的防御模式,从根本上防止恶意URL所带来的安全威胁。本文以URL实时分类为贯穿主线,从不同维度出发考察了URL实时分类技术的最新研究成果,并在此基础上根据实际需要进行进一步的拓展,提出了非人为访问过滤技术、恶意URL识别技术、潜在恶意URL发现技术等。依据这些技术理论,本文构建了面向大规模流量的URL实时分类框架。通过详细、具体的实验以及丰富的开源数据分析,本文对所提出的研究成果及相应的技术方案进行实验验证,并取得了较好的实际效果。本文的主要贡献与创新点总结如下:1)提出了大规模的URL实时分类框架。针对当前实时分类框架中可能存在的潜在问题,结合网关流量的特点,综合使用多种技术对网关位置的流量进行细致的分析和分类,并在此基础上提出了离线分析和在线分类相结合的异步协同架构。该分类框架能够有效地提升网页流量的分类效率,并支持多级分类和精细化分类等业务需求。通过长时间的网络运行测试,验证了该分类框架在实际应用场景中具有较高的运行效率及较稳定的分类性能,同时表明该分类框架不仅在理论上有所贡献,而且体现出一定程度的实用价值。2)研究了高频非人为点击的识别与过滤技术。提出了基于启发式规则的过滤方法EPLogCleaner。EPLogCleaner针对的是网关流量中高频非人为点击的过滤问题,利用网关流量中高频非人为点击在时间上呈现出的周期性,结合传统相似性度量方法进行分析,从而总结过滤规则,用于高频非人为点击的过滤。实验结果表明,相比于传统的数据清洗方法,EPLogCleaner可以多过滤30%的URL,并保证过滤准确率不低于90%。3)研究了轻量级的可疑URL识别技术。提出一种简单高效的有限特征集构造方法LDB(Limited Dictionary Builder)对特征进行筛选,从而限制特征集规模。该方法首先对每个词特征给出一个时间复杂度为O(1)的评价方法计算其预测能力,然后在线性时间内对特征进行筛选。实验结果显示,相比于传统的恶意URL检测方法BeyondBlacklist和BigData2013,在准确率基本保持不变的情况下,LDB方法能够将特征集规模缩减为传统方法的8.3%。在实验环境中,该方法能够达到每秒20,000个URL的处理速率。4)研究了隐身钓鱼URL的识别技术。提出了一种轻量级的隐身钓鱼URL识别方法CPRM (Cloaked Phishing Recognition Model)。通过观察和分析部分隐身钓鱼URL的算法生成过程,进而引入新的轻量级特征,并把它们用在钓鱼URL的识别检测中。实验结果显示,CPRM方法能够有效提升钓鱼URL识别的准确率(提高了2.74%)和召回率(提高了1.25%)。此外,CPRM方法只依赖于轻量级特征,能够保证URL的处理速率基本不变,适用于大规模网页环境。5)研究了恶意URL推断技术。首次将访问关系引入恶意URL识别问题,提出了恶意URL推断方法GuidedTracker,解决了恶意URL浓度低的问题。实验结果表明:相比于传统检测方法,GuidedTracker可以有效提升恶意URL浓度(从1.06%提升至1.94%),并缩短33.89%的检测运行时间。
其他文献
通过对城市轨道交通乘客构成以及对运营产生不良影响的乘客行为的分析,提出了引入全新的服务理念、提高应变的处置能力、加强对乘客心理、行为模式的研究,加速对重点设施设备
美食离不开食品添加剂,食品添加剂中食品营养强化剂是维护人体健康的基础物质。增调剂、鲜味剂、甜味剂、抗氧化剂和天然色素中的一些品种等添加剂都有益于人体的健康,而使用
结合国内外城市轨道交通制动电阻选型的发展趋势对制动电阻几种设置方案进行综合比较分析,最终确定郑州地铁1号线采用电阻+逆变型(回馈中压)地面化方案。该方案可将车辆制动
大数据给数字图书馆信息推送带来了极大的挑战,数字图书馆的信息推送业务存在数据来源各异,数据量大以及数据非结构化问题。为解决这些问题,在海量数据和图书信息构建分析的
针对经典W4背景建模算法只能克服光照强度的微小变化以及背景的轻微运动等问题,提出了一种新的运动目标检测算法。首先,利用均值法进行背景初始化选出静止像素集合,消除背景
2012年,国务院批准在深圳前海构建跨境人民币业务创新试验区,试行人民币有限度的自由兑换,探索资本项目的开放路径及风险防范措施。然而,多重的目标亦导致前海试验区的功能定
地铁中突发事件下乘客的行为对安全疏散具有重要影响。从个体角度对影响人群应急疏散的因素总结为性别、年龄、教育程度、性格类型、环境熟悉程度、乘车频率、是否经历过地铁
<正>北京的北海公园是我去过次数最多的公园之一,这里的每一处景点都有过我重复多次的脚印。之所以青睐北海公园,不仅在于它旖旎的风光,其深厚的历史文化底蕴则更具魅力。北
TALEN(Transcription activator-like effector nuclease)和CRISPR/Cas系统(Clustered regularly interspaced short palindromic repeats,CRISPR.CRISPR-associated,Cas)是