基于深度学习算法的恶意URL检测研究

来源 :新疆大学 | 被引量 : 0次 | 上传用户:lzhdq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,恶意URL日益增长且变化多样,差异性较小,难以区分,致使恶意URL检测研究变得愈加困难。现有的恶意URL检测研究大多是基于传统、单一的机器学习算法研究,这些算法函数计算较为简单且不能自动获取更多的URL特征进行学习分析,而且泛化能力效果不理想,恶意URL检测研究的准确率效果不佳。本文将恶意URL数据集Phish Tank和爬虫抓取良性URL组合成数据集作为实验数据,研究设计了深度学习算法模型,对恶意URL检测进行研究,通过多种对比实验得到的实验数据表明了本文提出的关于恶意URL检测研究方法的有效性。论文的主要工作如下:1.提出一种基于双向独立循环神经网络算法的恶意URL检测研究方法。同时结合URL字符串的本身性,提取主机信息特征及URL信息特征,并且两类进行融合;将Bi-Ind RNN(Bidirectional Independently Recurrent Neural Network)算法用于恶意URL检测研究,其中使用softmax进行分类,进行多种对比实验,实验数据表明Bi-Ind RNN算法明显提高了恶意URL检测的结果。2.提出一种基于Bi-LSTM(Bidirectional Long Short-Term Memory)算法的恶意URL检测研究方法。同时结合图像处理技术,提取得到恶意URL纹理指纹特征,同时提取URL静态词汇特征;将Bi-LSTM算法用于恶意URL检测研究,其中使用softmax进行分类,进行多种对比实验,实验数据表明Bi-LSTM算法明显提高了恶意URL检测的结果。3.提出一种基于卷积神经网络和独立循环神经网络的Bi-LSTM算法(cnn_Bilstm_Ind RNN)。同时结合图像处理技术,提取得到恶意URL纹理指纹特征,结合自然语言处理技术,利用词向量工具word2vec训练得到URL词向量特征,同时提取URL静态词汇特征;将cnn_Bilstm_Ind RNN算法用于恶意URL检测研究,其中使用softmax进行分类,进行多种对比实验,实验数据表明cnn_Bilstm_Ind RNN算法明显提高了恶意URL检测的结果。4.提出一种结合注意力机制的卷积神经网络和双向独立循环神经网络并联联合算法模型(CATTB)。同时利用URL存在的规则,对URL进行装箱处理,提取得到重定位特征,结合图像处理技术,提取得到恶意URL纹理指纹特征,结合自然语言处理技术,利用词向量工具word2vec训练得到URL词向量特征,同时提取URL静态词汇特征;利用CNN(Convolutional Neural Network)提取深层次局部特征,其次Attention机制调整权重和Bi-Ind RNN提取全局特征,最后使用softmax进行分类。进行多种对比实验,实验数据表明CATTB并行联合算法明显提高了恶意URL检测的结果。
其他文献
随着信息时代的发展和高新科技的更新换代,微电子领域俨然走在时代的前沿迅速发展。传统的器件尺寸已经满足不了人们对更小电子设备的追求,因此需要更小尺寸的电子设备也就需要更小的微电子器件。然而传统的MOSFET器件主要栅介质层为Si O_2,当需求更小尺寸的MOS器件时,介电常数相对较小的Si O_2层会导致电子的的直接隧穿效应,即栅极需要承受更大的电场,从而引起漏电流增大和可靠性下降等严峻的问题,间接
社会经济飞速发展背景下,自动驾驶车辆在不久的将来也将进入千家万户,为人们出行带来更大的便利。安全性保障是自动驾驶技术应用的前提,而若不能及时准确地检测和识别交通标志牌则极易引发交通事故,因此研究探索交通标志的实时检测与识别技术至关重要。论文以提高道路各种大小尺度的交通标志检测识别率为目的,结合多尺度卷积神经网络和组合矩特征提取等图像处理方式,提出交通标志图像的检测和识别方法,主要研究内容如下。1)
互联网的飞速发展,导致社会产生了海量的数据信息,文本作为这些数据信息的主要载体,在互联网信息流中占据越来越突出的地位。怎样才能高效快速地获取目标所需的信息,将无序的海量文本数据按需组织,这是一个亟待解决的问题。文本聚类作为一种有效提取、分类、挖掘文本信息的方法,在数据信息大爆炸时代具有重要的应用价值。空间向量模型由于其简单、高效被广泛应用于文本聚类研究中,但是用空间向量模型表示文本时存在高维稀疏问
化学链燃烧技术借助载氧体传递氧可实现燃料与空气的非混合接触燃烧,具有高效且兼顾经济性的CO2捕集能力,并避免污染物NOx的生成,成为解决因温室气体导致的全球变暖问题的一个重要突破口。在燃煤化学链燃烧过程中煤灰不可避免地在系统内累积,因此探究煤灰与载氧体间相互作用十分必要。本文以CaSO4/Ben载氧体为研究对象,以自行搭建的间歇式流化床为主要实验装置,从反应温度、修饰组分种类及添加量、作用机制等方
税收风险管理是深度融合于税款征收、税源管理、纳税服务等各个税务环节的现代化税收治理方法。近年来随着经济形势的变化,我国征管规模越来越庞大,减税降费政策落地使得税收增长明显放缓,有限的税收征管资源难以满足日益激增的纳税人办税需求,扎紧税收风险管理的口子,是税务机关聚焦组织收入主责主业、确保减税降费政策落地落实的重要措施,是确保营商环境优化,稳步提高纳税遵从的关键举措。实施税收风险管理是现代税收管理发
金融数据作为一种具有高噪声、非线性的复杂时间序列数据,常被作为时间序列研究者的首选。股票市场作为金融市场的代表性数据,可以用其来衡量金融市场的发展情况。为了研究股票市场的发展趋势,将分析股票市场方法分为两个方面:基本面分析和技术分析。基本面分析从国家宏观指标、经济政策等方面出发,结合金融经济理论,分析股票的趋势;技术分析则是通过研究股票市场的数据,提出相关理论以及研究技术指标等发现股票趋势。股票市
美食文化传承至今,已经演变出了多样的形式和丰富的含义。自从《舌尖上的中国》热播之后,纪录片影像已经成为了传播美食文化的重要方式。美食纪录片以美食为桥梁,在传递美食文化的基础上,展现了区域的自然风光和人文精神。再现理论是分析美学的重要理论,源起古希腊时期,经历了从“摹仿”到“再现”的变迁。研究学者众多,如亚里士多德、古德曼、沃尔海姆等。最初,再现是从绘画的角度来研究艺术作品,但随着时间的推移和艺术形
随着互联网技术的迅猛发展,微博等社交平台日渐成熟,用户量剧增导致文本数据爆炸式增长,并且用户所发表的言论简短,口语化严重,导致准确地识别文本中隐含的情感信息更加困难。传统的情感分析方法主要依靠人工构建情感词典,并且需要针对不同领域的语料选择不同的特征选择方法,费时费力,已无法满足短文本情感分析的需求。因此,本文结合深度学习的方法,开发了一个基于深度学习的社交平台情感分析系统。主要研究工作如下:1)
栀子黄是一种安全的天然色素,探究其与活性红3BS在乙醇/水体系中对蚕丝的染色,可进一步发挥出清洁化染色技术的优势,减少环境污染,促进天然色素与化学染料的协同发展。为了探究前处理对蚕丝染色性能的提升性,利用Na_2CO_3、碱性蛋白酶和TEP-90改性剂对蚕丝进行前处理,以减重率为指标简要探究了Na_2CO_3和碱性蛋白酶对蚕丝的最佳脱胶工艺,以断裂强力为指标简要探究了改性剂对蚕丝的最佳改性工艺,并
为了培养新时代中国特色社会主义事业合格的建设者和可靠接班人,培养有信仰、有思想、有尊严、有担当的四有公民,我们必须解决好培育什么人、怎样培养人、为谁培养人这个根本问题。基于2017年新版《普通思想政治课程标准》的修订,明确了普通思想政治课程修订工作的主要任务,在任务中首要提出了通过凝练核心素养,推动落实“立德树人”根本任务。在基本理念中,构建以培育核心素养为主导的活动型学科课程。这不仅有利于达到教