集成学习的恶意网页检测系统的设计与实现

来源 :电子科技大学 | 被引量 : 2次 | 上传用户:formula_lj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来互联网行业正在飞速崛起,其带来的信息交流也促进了全世界的商业发展。广大用户一边在享受着互联网带来的便利,同时也在遭受着网络中潜在的威胁。由于网页中病毒和恶意脚本的肆虐,个人、企业电脑受到黑客攻击致使信息泄露的事件频频流出,给人民和政府经济造成了损失。互联网中各种知名网站每日有巨大的访问量,这使得黑客通过这些网页攻击用户变得有机可乘。不少学者对于恶意网页的检测技术已经进行过一些研究,但是大部分针对恶意网页检测模型的构建过于单一造成检测准确率不高,所以如何更全面的挖掘恶意网页的特征并提高恶意网页检测的准确率变得非常重要。本文对恶意网页检测技术进行研究,利用了集成学习的代表算法随机森林进行模型融合,将深度学习算法和机器学习进行集成。其中的主要工作及创新点为:(1)对恶意网页链接URL检测技术进行研究,将卷积神经网络与传统机器学习方法相结合,融合卷积神经网络结构中自动提取的特征与人工提取的特征,并且使用三种传统机器学习方法对特征融合后的URL检测模型进行评价,将表现效果最好的URL检测模型作为本文搭建的集成学习恶意网页检测系统的URL检测层模型。(2)对恶意网页内容检测技术研究,结合正则表达式对网页前端代码特征提取。使用随机森林、逻辑回归和K邻近算法分别对恶意网页内容检测模型进行评估,选择出效果最好的方式作为本恶意网页检测系统的网页内容检测层的模型。(3)构建多层次恶意网页检测系统,第一层为基于黑名单的恶意域名匹配层,第二层为多维恶意URL检测层,第三层为基于网页内容的恶意网页检测层。用户提交的待检测链接经过第一层黑名单模块的过滤之后,没有被筛选的网页链接继续进入下一层多维URL检测层进行判别,当检测为恶意链接则结束检测并返回结果,如果检测为正常链接则继续进行基于网页内容的检测模块。并利用web开发技术将整个系统的各个模块整合,搭建了一个可实时进行恶意网页检测web平台。(4)最后将本文搭建的多层次恶意网页检测系统与当前主流的恶意网页检测系统virusTotal,URLVoid在phishtank,DMOZ数据集上做对比测试,使用精确率,召回率和F1-score三个评价指标进行测试对比。发现本文结合了特征融合的URL检测模型和基于网页内容的检测模型在检测效果上有提升。
其他文献
<正>"孑遗"植物水杉(Metasequoia glyptostroboides)为我国特有的一级保护的珍稀濒危物种,被誉为植物界的"活化石",且是重要的湿地造林树种。由于人类干扰等原因,目前水杉群
会议
天然气作为一种高效、优质的清洁能源。随着我国天然气田的逐步开发,天然气净化在我国天然气工业中占有越来越重要的位置。鄂尔多斯某天然气净化厂建立时间较早,经过10余年不断提升改造,全厂能量消耗发生了诸多变化。为了准确掌握该厂目前能源消耗现状并提出节能降耗技术方案,本论文以该厂目前运行参数为依据,通过E-P、“三环节”以及夹点分析方法对各单元能量进行分析,在此基础上提出了优化方案。取得的主要研究成果如下
本文通过对某自动化的简介和新车型导入及技术改造,顺利实现多车型任意混线生产方案,对今后类似焊装项目多品种多车型的混线改造导入具有较高的参考价值。
目的:探讨使用低位直肠癌保肛根治术治疗低位直肠癌的效果。方法 :选取2013年1月至2016年1月期间江苏省无锡市人民医院收治的55例低位直肠癌患者作为研究对象。随机将这些患者
2013年习近平主席提出了“丝绸之路经济带”这一战略构想。它的提出不仅为西部开发开放的实际需要注入活力,而且还能在在基础设施建设、能源开采开发、技术合作创新、对外贸易往来等方面强化我国与沿线国家的互助交流[1]。我国的经济发展要想由量的增长转变为质的提升,就必须对要素驱动发展为主向创新驱动发展为主加快转变,充分利用科技创新在经济发展过程中的支撑和引领作用,把科技创新作为我国实现经济高质量发展重要的
电力营销管理是电力生产的最终目的,营销管理质量的好坏对电力市场发展起着决定性作用。基于电力营销特点,本文对电力商品特点进行分析,着重探讨了电力营销和管理的创新策略,
肝硬化是各种慢性进行性肝病的后期或终末期表现,在我国有较高的发病率.据尸检的不完全统计,其发生率约为4%~7%[1].
期刊
为了探明叶尔羌河-喀什噶尔河三角洲绿洲土地利用结构变化规律及其归因,以研究区Landsat遥感分类数据、水文和气象数据、社会经济数据为主要数据源,综合运用动态度、时间序列
从测量阶段图数据和试验性的 thermochemical 性质, DyCl3-KCl 和 DyCl3-CaCl2,阶段图被 CALPHAD 技术优化并且计算。在二个系统的液体阶段的吉布斯精力被新修改伪化学药品模型