基于“词-位置”向量的混合式恶意URL检测方法研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:beefshen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网高速发展的同时伴随着日益严峻的网络攻击问题,包括网络钓鱼、垃圾邮件、恶意软件以及拒绝服务等。恶意URL(Uniform Resource Locators,URL)是网络攻击发生的一个主要途径,对网络安全的维护造成了极大的威胁。在网络安全领域中,如何优化恶意URL检测技术一直是学者们的研究热点。依靠黑名单机制的防御方法只能识别出已知的恶意URL。基于人工特征提取的机器学习方法依赖于丰富的专家知识以及大量的数据分析来设计规则,需要消耗大量的人力与时间。近些年来,深度学习技术在自动提取特征方面取得了巨大的成功,被逐渐应用于恶意URL检测任务。例如用Word2Vec词向量来表示URL文本,用CNN模型或RNN模型来检测恶意URL。URL是一种具有特殊结构的短文本,但词向量没有体现其结构信息。CNN网络可以提取局部语义特征,RNN网络可以捕捉长距离依赖关系,但将两者结合应用于恶意URL检测的方案还需要探究。因此,基于深度学习的恶意URL检测技术仍需要进一步改进。本文的研究重点是设计一种基于深度学习的恶意URL检测方案,完成的主要工作有:(1)提出了一种用于URL文本表示的“词-位置”向量模型。一条URL是由特殊字符、数字以及字母构成的,可以被划分成域名、路径、查询以及片段等部分。“词-位置”向量模型利用URL的此种特殊结构形式对原先的词向量进行了优化,即额外加入了词所对应的位置信息。首先,利用3-gram分词技术将URL文本转变为字节片段序列。然后,根据词找到词所对应的位置标志,组成一个“词-位置”对(word-location,WLoc),于是字节片段序列就能转变为WLoc序列。对于各个“词-位置”对,将其中的词和词所对应的位置标志按字符串的形式进行拼接。最后,借助Word2Vec中的Skip Gram模型进行训练,就能生成“词-位置”对的向量表示。实验结果表明,Word2Vec(WLoc)“词-位置”向量用于恶意URL检测任务要远远优于Word2Vec词向量。(2)提出了一种用于加入注意力机制的CNN-Bi LSTM混合式检测模型,简称为CNN-Bi LSTM-ATT。该模型中,CNN网络用于提取局部语义特征,Bi LSTM网络用于捕获上下文信息,将两个网络的输出特征进行融合,然后引入一个注意力机制,对融合特征进行加权求和,得到的输出向量用于后续分类。实验结果表明,用于恶意URL检测的CNN-Bi LSTM-ATT模型在性能表现方面显著优于Bi LSTM模型、Bi LSTM-ATT模型、CNN模型以及CNN-Bi LSTM模型。本文提出的“词-位置”向量结合CNN-Bi LSTM-ATT检测方案的综合性能表现是最优异的。预训练的Word2Vec(WLoc)“词-位置”向量结合CNN-Bi LSTM-ATT模型获得了94.25%的召回率、94.40%的准确率、94.53%的精确率以及0.9439的F1值。
其他文献
随着机器人技术的发展,清洁机器人逐渐进入人们的日常生活。2020年新型冠状病毒疫情的爆发,使得市场对商用清洁机器人的需求大幅增加。而目前,现有的商用清洁机器人产品存在着智能化程度不足,供给量低,成本高昂的问题,所以国内商用清洁行业主要采用纯人工或人工+机器的清洁方式。针对现代清洁服务行业高效快速清洁能力强的行业需求,研发高效率、高智能、低成本的智能清洁机器人迫在眉睫。本文以商用清洁机器人行业的发展
高速工况下,轴承转子系统运转的稳定性和安全性大大降低。提高高速轴承动态性能、寿命和可靠性已经成为高端装备技术发展亟待解决的关键技术之一。本文以某航空发动机高速球轴承为研究对象,针对高速轴承动态仿真分析及服役寿命计算中的关键问题展开研究工作,具体研究内容和主要结论如下:(1)搭建了快速有效分析深沟球轴承多体接触动力学仿真分析数字化平台。通过对比轴承运动过程中的运动速度和相对位移的理论值和仿真值之间误
MYB转录因子家族是植物中最大的转录因子家族之一,其在非生物胁迫响应中发挥重要作用。目前在番茄中已经鉴定了127个MYB家族转录因子,大多数研究集中在MYB转录因子的非生物胁迫研究领域。本文选取番茄MYB家族的SlMYB71基因,通过RNAi技术构建了SlMYB71基因沉默载体,利用农杆菌介导的番茄转化方法得到沉默效率高于90%的转基因番茄植株,以探究番茄SlMYB71基因在非生物胁迫中的生物学功
新型城镇化背景下,合理发展、利用地下空间已成为解决城市系列问题的关键途径。商业中心区作为城市地下空间集中发展的重要区域,也同样面临最为深刻的矛盾,常是更新改造的起点。地下空间的发展则为高密度中心区人地矛盾的缓解,空间活力的提升提供全新的视角。商业中心区的地下链接空间,作为商业中心区沟通、联系、融合地下空间的公共介质,在缝合商业中心区公共空间体系、丰富公共活动场所、创造便捷生活方面扮演重要角色。然而
群签名是一种能让群成员代表群进行匿名性签名的数字签名方案,群管理员能够在必要时跟踪签名者,因此群签名具有匿名性和可追踪的基本特性,这些特性使得群签名具备广泛的应用场景。当群签名发生争议时,授权机构需公开群成员的身份,但是在某种场景下,仅需知道指定的用户与签名者身份是否符合。在这种情况下,使用基于标准组的群签名模型会出现安全问题——指定的用户可能不是给定的签名者,而实际签名用户的信息会被泄露,所以设
增压技术不仅能改善汽车的排放特性,还可以提高动力性和燃油经济性,已经广泛应用于车用发动机。但涡轮增压器高转速的工作特性也带来了新的噪声问题,主要体现在进气系统。目前针对涡轮增压进气系统噪声的研究多集中于稳态工况下压气机所产生的气动噪声,对于瞬变工况下产生的泄压噪声鲜有研究。本文通过商业软件Fluent分析了压气机、泄压阀的流场和声场特性,然后建立了压气机泄压流道模型,分析了瞬变工况下的泄压噪声并进
近年来我国轨道交通地下车站逐渐呈现规模化、复杂化、深层化趋势,疏散难度随之增加,如何保障人员安全便成为车站设计的重点。虽然我国近年来出台一系列地铁安全疏散规范,地下车站也按照规范进行疏散设计,但灾害仍时有发生。按照规范设计的地下车站能否在应急情况下达到安全疏散要求?这是本文研究的出发点。研究发现现行条文式规范缺乏对车站整体疏散性能的评价,其次对于修建完成后的地下车站缺乏疏散验收评价,也缺乏对于车站
随着无线通信的不断发展,无线电台的业务需求日益增长,传统单一性质的电台已无法实现体制兼容和互联通信。在满足通用化、综合化的业务传输需求的同时,增加系统抗干扰、抗截获能力,使得开发支持多种调制方式、通信速率及通信协议的突发扩频无线电台具有重要研究意义。论文针对突发扩频通信系统的多模式应用需求,基于软件无线电思想重点研究了突发扩频收发信机基带部分的数字信号处理技术,对收发基带进行模块化实现,并系统性验
近年来,能源及环境问题日益突出,以清洁能源作为动力的电动汽车应运而生,在各地政策的推动下迅速发展。电动汽车保有量增加对于减少二氧化碳排放量,推动环境可持续发展,打造环境友好的生态圈具有巨大的意义。然而,电动汽车行业的飞速发展对充电设施的要求越来越高,电动汽车充电站规划相关研究备受关注。本文首先研究了外部环境对电动汽车充电负荷的影响,计及用户的出行意愿对传统的出行链进行了修正,基于万有引力模型刻画了
现代社会,经济与科技迅猛发展,智能化迅速普及,汽车在人们日常生活中的地位无可代替。汽车的出现是人类文明的巨大进步,汽车行业为社会的发展做出了贡献,提高了人们的生活水平和质量。但是,越来越多的汽车被盗案件发生,这使得汽车防盗安全变得至关重要。与此同时,为使生活高效便捷,越来越多的人也开始关注使用体验。我国是汽车保有量大国,国民汽车购买能力强,汽车被盗案件数量也大,我国的车辆防盗安全亟待加强。这促使我