论文部分内容阅读
网页木马(drive-by download)已经成为互联网用户面临的最严重的安全威胁之一,基于Internet网页爬取的主动方式的网页木马监测服务则成为一种重要的反制手段。由于包含网页木马的页面隐藏在海量的网页之中,如果对所有的网页进行遍历检测,检测效率将远远达不到规模化网页木马监测的需求。因此,在网页爬取获页面的基础上,采取预处理方法缩减待检测页面,以匹配较为缓慢的网页木马检测过程,是有效地提高网页木马监测效率、扩大监测规模的主要方法,但如何在保持低漏报率的条件下达到较高的缩减率是其中的研究难点。 由于网页木马是通过JavaScript,VBScript, CSS等动态内容利用浏览器及其插件中的漏洞进行攻击,据此,本文提出了一种新的预处理方法,该方法将网页中包含的脚本和CSS片段等动态内容作为功能单元提取出来,根据数据依赖和控制依赖的关系组合成功能构件,然后提取对所有功能构件形成n-覆盖集的网页集合,提交给后继的网页木马检测分析。这种针对功能构件的n-覆盖集覆盖了该网站中的所有动态内容的组合,因此不会遗漏所有可能的攻击行为,在高缩减率和低误报率两方面达到了很好的平衡。基于该方法实现的网页挂马监测系统已经成功的对中国教育网下近3万个网站进行了网页木马监测服务,日监测页面超过600万。经实测,预处理缩减率达到100∶1,且基本没有引入漏报。实验表明,本预处理方法可以有效提升对大范围互联网网页木马监测服务的能力,本方法也可以用于其他使用脚本进行攻击的行为的检测的过程中,如进行XSS攻击检测的预处理等。