论文部分内容阅读
近年来互联网行业正在飞速崛起,其带来的信息交流也促进了全世界的商业发展。广大用户一边在享受着互联网带来的便利,同时也在遭受着网络中潜在的威胁。由于网页中病毒和恶意脚本的肆虐,个人、企业电脑受到黑客攻击致使信息泄露的事件频频流出,给人民和政府经济造成了损失。互联网中各种知名网站每日有巨大的访问量,这使得黑客通过这些网页攻击用户变得有机可乘。不少学者对于恶意网页的检测技术已经进行过一些研究,但是大部分针对恶意网页检测模型的构建过于单一造成检测准确率不高,所以如何更全面的挖掘恶意网页的特征并提高恶意网页检测的准确率变得非常重要。本文对恶意网页检测技术进行研究,利用了集成学习的代表算法随机森林进行模型融合,将深度学习算法和机器学习进行集成。其中的主要工作及创新点为:(1)对恶意网页链接URL检测技术进行研究,将卷积神经网络与传统机器学习方法相结合,融合卷积神经网络结构中自动提取的特征与人工提取的特征,并且使用三种传统机器学习方法对特征融合后的URL检测模型进行评价,将表现效果最好的URL检测模型作为本文搭建的集成学习恶意网页检测系统的URL检测层模型。(2)对恶意网页内容检测技术研究,结合正则表达式对网页前端代码特征提取。使用随机森林、逻辑回归和K邻近算法分别对恶意网页内容检测模型进行评估,选择出效果最好的方式作为本恶意网页检测系统的网页内容检测层的模型。(3)构建多层次恶意网页检测系统,第一层为基于黑名单的恶意域名匹配层,第二层为多维恶意URL检测层,第三层为基于网页内容的恶意网页检测层。用户提交的待检测链接经过第一层黑名单模块的过滤之后,没有被筛选的网页链接继续进入下一层多维URL检测层进行判别,当检测为恶意链接则结束检测并返回结果,如果检测为正常链接则继续进行基于网页内容的检测模块。并利用web开发技术将整个系统的各个模块整合,搭建了一个可实时进行恶意网页检测web平台。(4)最后将本文搭建的多层次恶意网页检测系统与当前主流的恶意网页检测系统virusTotal,URLVoid在phishtank,DMOZ数据集上做对比测试,使用精确率,召回率和F1-score三个评价指标进行测试对比。发现本文结合了特征融合的URL检测模型和基于网页内容的检测模型在检测效果上有提升。