基于决策树的搜索引擎恶意网页检测研究与实现

被引量 : 0次 | 上传用户:aaboo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,网络信息呈爆炸式的增长,具有资源整合功能的搜索引擎已经成为人们获取信息的首要途径。然而大量钓鱼网页、恶意代码链接充斥其中,给用户带来极大的安全隐患,避免用户访问恶意的搜索链接具有深远而现实的意义。然而,现有的搜索引擎安全防御工具检测范围有限。本文力图改善搜索引擎网页检测的覆盖面,利用机器学习具有处理同类事物的泛化能力,让检测系统更加智能化。为了正确而迅速地判定搜索引擎网页的安全性,将网页分为正常网页和恶意网页,判定规则通过机器学习中的分类模型来获得。首先,对大量的恶意网页与正常网页进行深入分析,除了考虑网页自身特征之外,选取了多种新的特征来检测恶意网页,包括Google PageRank值及搜索结果数、Alexa流量信息、域名信息、WOT声誉值等。相对于以往检测网页所选择的特征而言,本文得到的网页特征更具有健壮性、权威性,能够更好的区分恶意网页与正常网页,使得网页检测更具真实性、可靠性。其次,采用多种提取技术获得所选的网页特征,利用机器学习中的分类算法,如朴素贝叶斯、支持向量机、K最近邻、决策树算法等从网页特征集中生成分类模型。对分类性能优越且判决复杂度低的J48决策树模型加权叠加后,分类精度达到95.19%,能有效的评估网页的安全性,适合用来对搜索引擎网页进行快速分类。最后,扩展了Chrome浏览器的功能,将机器学习生成的决策树模型应用到搜索引擎网页检测中。当浏览器扩展探测到用户通过搜索引擎进行查询后,对于每个搜索引擎网页,利用异步的XMLHttpRequest从网络中提取分类模型中的特征,将检测的结果通过图标的形式及时反馈到搜索引擎网页旁边。通过在多款主流搜索引擎的大量搜索测试表明,所开发的扩展能够非常准确且有效的对任意搜索引擎网页进行检测。
其他文献
需要系数是采用需要系数法进行工业装置供电负荷计算的重要参数,其取值的合理与否,对用电设备和电气设备本身均有影响。简要介绍了五种常用的负荷计算方法,重点介绍了需要系
会计是一个国家经济管理活动的重要组成部分,现代会计是商品经济的产物,必然受到所在环境的直接影响。会计与特定的国家环境,尤其是法律制度、经济制度、文化背景相联系的,具
目的探讨药物涂层球囊应用于冠状动脉回旋支开口病变的可行性。方法选择2015年10月至2017年6月在首都医科大学附属北京朝阳医院心脏中心经冠状动脉造影证实冠状动脉回旋支开
目的探讨小切口非超声乳化联合人工晶体植入术(二联术)以及小切口非超声乳化联合人工晶体植入外加小梁切除术(三联术)治疗膨胀期内老年性白内障继发青光眼的临床疗效。方法分析15
目的:初步对本院新生儿科全肠外营养液(TPN)的应用情况作了解,为进一步规范TPN、制定合适的指南提供参考依据,保证合理安全用药。方法:统计并分析2012年~2013年6月新生儿科TPN的处方
随着社会主义市场经济的发展,大学毕业生的就业已经基本发展为“市场导向,政府调控,学校推荐,毕业生和用人单位双向选择,自主择业”的模式。为了解预防医学专业毕业生就业的真实想
为了建立注射用药用辅料甘露醇的细菌内毒素检查方法,根据《中华人民共和国药典二部(2010年版)》中的"细菌内毒素检查法及指导原则"进行试验。将甘露醇溶解稀释至100mg·mL-1
本文从文献记载、植物来源、性状鉴别、主要化学成分鉴别、临床功效区分等对枸骨叶与阔叶十大功劳叶、细叶十大功劳叶进行鉴别分析。将枸骨叶与功劳叶类分别论述,对临床上三
新加坡海峡是世界上最繁忙的海峡之一,每年有十几万艘船舶载着重要的货物从这里经过。由于船舶交通量大,海峡狭窄,该水域海上事故频发,加之船舶的大型化趋势明显,很多超大型
<正>廉洁文化是廉洁理论和行为方式及其相互关系的文化总和,是关于廉洁的知识、理念、制度与之相对应的生活方式、行为规范的总概括。电力企业廉洁文化建设是企业文化建设的