基于在线学习算法的恶意网页检测系统

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:GYS876
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网已经成为我们生活中不可缺少的工具,我们每天都会使用浏览器上网浏览网页,但是接入网络的计算机随时都处在被远程攻击的危险当中。当浏览器访问到恶意的Web服务器时,服务器就会返回含有攻击的恶意网页到用户的计算机中。如果恶意攻击成功,则Web服务器就可以在用户的计算机上安装任意程序,比如病毒、木马。所以,恶意网站严重威胁了用户机器的安全,我们需要设计一个恶意网页检测系统保护用户上网的安全。检测恶意网页的方法有客户端蜜罐、静态检测算法和基于机器学习的检测方法。客户端蜜罐通过浏览器主动与Web服务器交互,同时监视系统中的进程、注册表、文件等的状态,如果在浏览器与Web服务器交互后,系统里出现了非法的状态变化,就认为该Web服务器是恶意的。静态检测算法主要是利用模式匹配、静态代码分析和启发式规则等静态算法来检测网页代码。客户端蜜罐检测方法比静态检测算法的准确率要高,不会将良性网页误判为恶意网页。不过客户端蜜罐的缺点也很明显,那就是它比静态检测算法检测速度慢很多,也需要使用更多系统资源等等。静态检测算法虽然检测速度很快,但误判率比较高,无法发现未知攻击。机器学习的检测方法主要是提取网页的特征,通过样本训练出分类器来检测恶意网页。机器学习的检测方法不仅检测速度快,而且具有很好的预测能力。其中在线学习方法与批量学习方法相比,更适合恶意网页检测系统。本文通过提取网页URL特征,利用在线学习的方法,训练出高效的分类器,并用分类器实现了一个实时的恶意网页检测系统。随后通过实验结果的分析,发现了系统的不足之处,并提出了改进的方法,使系统效果进一步提升,进而设计出了半监督的学习系统。
其他文献
随着信息的存储不断朝着网络化的方向发展,数据存储的安全性成为关注的重点。对数据进行安全性保护的第一道关卡,就是建立良好的身份认证机制。目前应用广泛的存储系统中,对
虚拟化技术,因其所具有的资源量化管理和良好隔离性,目前已经被企业广泛应用于测试开发环境的搭建,同时部分企业应用虚拟化技术将多余的服务器资源贡献出来为用户提供云服务。未
扫描速度是扫描仪的一项重要性能指标。采用多CCD结构的大幅面专业扫描仪具有扫描幅面大、扫描精度高等特点,这些特点决定了此类扫描仪会产生大量的图像数据。快速的完成图像
随着计算机和网络技术的发展,计算机网络已经广泛而深入地渗透到社会的方方面面,促进了人类社会、经济和文化的发展,同时也带来了一个严峻的问题——网络安全问题。入侵检测
独立分量分析(Independent Component Analysis,ICA)是近年来出现的一种新颖的信号处理方法,其目的是从观测到的混合信号中分离或提取出分布未知但相互统计独立的源信号。经过
光头读取信号的检测技术是光盘读通道的核心技术之一。红光高清光盘(Next- Generation Versatile Disc, NVD)系统的归一化信息密度大于等于4.6,由于光盘存储密度的增加,使得读
面向服务架构SOA(Service-Oriented Architecture)成为当前学术界和软件行业研究的首要课题之一,SOA以其松散耦合、粗粒度、位置和传输协议透明等特点,能方便快捷地实现应用
图像边缘检测是数字图像处理的一个重要研究领域,它属于特征提取的范畴,是计算机视觉的重要基础。图像边缘含有一幅图像的主要信息,在现实应用中,具有十分重要的意义,但同时
随着三维建模技术和互联网技术的快速发展,基于内容的三维模型检索成为研究热点,而三维模型的表现形式不仅决定着三维模型的显示效果,同时也是三维模型检索技术的基础。本文
概念格和连通性分析是近年来获得飞速发展的数据分析的有力工具,已被广泛地应用于知识发现和数据挖掘领域,并取得了较好的成果。因此研究概念格及连通性分析的基本理论及其在