基于DBSCAN算法的WEB漏洞检测去重方法研究

来源 :中北大学 | 被引量 : 0次 | 上传用户:wangshuo3246
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,网络平台已经成为当今社会信息的主要传播媒介,人们的生活方式也随之发生了很大的变化,体现在通过网站进行购物、教育、通讯等方面;同时,黑客针对网站的攻击严重威胁着人们的利益,如果能够针对网站存在的漏洞进行快速扫描,在被黑客攻击之前给出防御措施,就会很大程度上提升网站的安全性,在实际应用中将有很大的价值。目前,传统的Web漏洞检测系统使用的网络爬虫对网站页面数据的爬取不够完整,并且没有针对反爬机制进行改进,导致漏洞检测的可行性降低、漏报率增加;同时针对网络爬虫采集到的页面数据没有采取高效且准确的算法进行去重处理,造成扫描系统速率降低,这种扫描方法已经不满足当代安全行业的需求,需要提出新的方案。基于模拟人机交互的自动化网络爬虫更好地模拟了人的行为,可以更全面的分析网站结构,更好地处理并采集网站数据,同时在一定程度上可以抵御反爬机制;基于密度的DBSCAN聚类算法针对网站数据的特征,可以更好地刻画每个页面的特点及与其他页面的区别,达到快速且准确去重的目的。因此本文结合人机交互的网络爬虫和DBSCAN聚类算法两个方面进行研究Web漏洞扫描方法。具体研究内容如下:(1)采用Selenium(浏览器自动化测试框架)结合Chrome Headless浏览器作为网络爬虫模型重要组成部分,通过Selenium模拟真实用户的行为,用Chrome Headless作为一个真实的无界面浏览器。通过实验证明,该爬虫框架可以更好地刻画一个用户在对浏览器进行操作的行为,在一定程度上绕过了反爬机制,同时可以更全面的分析网站的结构,采集到更加全面的数据,提升漏洞检测的可行性并且降低了其漏报率。(2)针对网络爬虫采集得到大量的网站页面数据,采用基于密度的DBSCAN聚类算法,对网站页面数据的特征进行网页相似性聚类。通过实验证明,该去重方法相比基于正则的算法更好的解决了页面去重问题,并加快了漏洞检测的速率。(3)结合人机交互的网络爬虫和DBSCAN聚类算法,同时调用SQL注入和XSS漏洞检测插件设计了Web漏洞高效检测系统。通过对本系统和AWVS漏洞检测系统进行测试,实验表明本系统有更好的检测效果。
其他文献
高能激光体系的研究是国际上备受关注的前沿领域,它不仅仅要输出能量高,还要有相当高的功率。通常认为其输出平均功率应大于10kW,持续时间达数秒,激光能量在数万焦以上。高能
姚公鹤著作中"江浙无赖文人,以报馆为末路"一语,据称是左宗棠评价《申报》用语,时常被用以证明早期新闻人地位低下。但这段话一是涉及抄袭,二是未完整准确地引用原文,断章取
开关磁阻电机(SRM)因具有结构简单坚固、容错性好、成本低以及高速适用性等特点,已经被广泛应用于航空、航天以及高速离心机等高速、高可靠性的场合。由于开关磁阻电机工作在
光纤传感技术是一种成熟的传感器技术,它具有很多优点:灵敏度(sensitivity)高、环境适应性强(可用于高压、高温、电磁干扰等工作环境)、安装方便(可以根据各类仪器或应用结构形状
随着集成电路规模的不断增大、特征尺寸不断减小,时钟频率越来越高,给集成电路工艺技术和生产技术(设备和材料)以及设计生产率等诸多方面的问题带来了更多的技术挑战。其中一
光谱测量技术是研究物质的结构、成分和能态最灵敏、最有力的工具之一,广泛应用于物理、化学及生物等基础学科的研究。如果所用激发源是脉冲或随时间变化的其他形式的能量,光
纳米材料因其优异的光学、电学、化学和力学性能成为当今纳米科学技术领域的研究热点,纳米材料科学的研究涉及纳米材料的结构、性能、应用以及纳米材料的制备工艺和检测手段
从上个世纪九十年代以来,全球化、信息化一直成为世界发展的两大趋势,尤其是全球化与信息化之间的相互交织,对各国经济和社会都产生了深刻的影响,并有力地推动了企业的改革和发展
为了全面清查土地的利用情况,掌握真实的土地基础数据,建立和完善土地调查、统计和登记制度,实现土地调查信息的社会化服务,满足经济社会发展以及国土资源管理的需要。结合第
为了大面积推广国外优质番茄品种并探索相应的生产技术,同时克服番茄种子价格昂贵的现实困难,充分利用番茄植株具有很强的分枝能力,主枝、侧枝极易产生不定根这一特性,采用番