基于数据挖掘和机器学习的恶意代码检测技术研究

被引量 : 0次 | 上传用户:zhanglangsdkd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
恶意代码的数量和种类日趋增多,加上代码迷惑技术的兴起,使得检测恶意代码变得越来越困难。传统的基于签名的检测技术被商业杀毒防毒软件普遍使用,但是它必须要在获取一类病毒的签名之后才能有效的检测这类病毒,而签名一般都在感染后才被获取。这个特点使得计算机系统受到恶意代码威胁的可能性提高了。近年来,数据挖掘和机器学习技术应用于恶意代码检测领域,它之所以成为研究的重点,是因为它可以利用数据挖掘从已存在的大量代码数据中挖掘出有意义的模式,利用机器学习可以帮助归纳出已知恶意代码的识别知识,以此来进行相似性搜索,帮助发现未知恶意代码。本文采用数据挖掘和机器学习技术检测恶意代码。在介绍了恶意代码、数据挖掘和机器学习的相关背景和理论知识之后,详细阐述了特征提取方法和特征选择方法。本文的主要贡献如下:1.本文实现了一个恶意代码检测系统,采用机器代码的字节序列变长N-gram作为特征提取方法,加权信息增益作为特征选择方法,使用决策树、支持向量机、朴素贝叶斯等多种分类器进行恶意代码检测。2.本文使用变长N-gram作为恶意代码特征提取方法,能够提取相关的不同长度的有效特征,弥补了定长N-gram可能拆分有效特征的缺陷,通过实验与Kolter采用定长N-gram方法的实验结果进行比较。实验证明变长N-gram在检测性能指标上确实优于定长N-gram。3.本文提出了一种基于加权信息增益(WIG)的特征选择方法。该方法综合考虑特征频率(CF)和信息增益(IG)的作用,利用特征是否出现以及出现的频率这两个因素来综合评价一个特征所含的信息量,弥补了信息增益只考虑特征出现与否的不足,能够更加准确的选取有效特征,从而提高检测性能。实验结果与Reddy采用类域频率方法的实验结果进行比较,证明本文的方法能够更加有效的提高恶意代码的检测率和准确率。通过上述研究和实践,进一步证明了基于数据挖掘和机器学习的恶意代码检测技术的高效性和准确性。
其他文献
刑法理论界对转化犯的概念及特征的研究多,而对转化犯的转化条件探讨则少,因此,有必要对转化犯的转化条件从前提条件、时空条件、介入因素、实质条件四个方面进行探讨以界定
虾被壳,蟹裹甲,皆属于甲壳动物。它们的生长发育总是伴随着蜕皮与蜕壳进行的,故其形体的增大和形态的改变也都要经过蜕皮与蜕壳才能完成。蜕皮、蜕壳,不只是身体的外部变化,
大电网与分布式发电相结合被世界许多能源、电力专家公认为是能够节省投资,降低能耗,提高系统安全性和灵活性的主要方法,是21世纪电力工业的发展方向。分布式发电系统通过并
水利工程建设对于我国经济发展具有重大的意义,在当前我国科学技术的不断发展下,我国水利测绘技术也得到了较大的发展。与传统测绘技术相比,现代化新型水利测绘技术不仅可以
随着国家对高中学生的英语水平要求不断提高,英语教学的针对性和有效性显得越来越重要,学生的语言错误作为重要的反思资源越来越受到重视。对于教师来说,如何认识并分析错误,
随着人们对高质量无线多媒体业务需求的增长,未来移动通信系统(LTE/4G)要求更高的传输速率、更高的业务质量和更高的资源利用率。正交频分复用(OFDM)技术因其在宽带通信中的
随着国际竞争的日益激烈,企业间的竞争已经进入到了全面的竞争阶段,这就要求企业不仅要有高效的市场运作,卓越的企业运营能力、杰出的供应链管理和采购管理能力,还必须有强大
侦查讯问作为侦查程序一项重要措施,在获取犯罪嫌疑人有罪证据,查明案件事实真相方面发挥了举足轻重的作用,然“成也讯问、败也讯问”,讯问程序在发挥积极价值的同时,也暴露
本文认为:组织创新氛围中的组织效率和组织阻碍与创新行为负相关,正相关较明显的因子为工作的自由度与挑战性和工作团队支持。
近年来基于IEEE802.11标准[1~3]系列的无线局域网(Wireless Local Area Network, WLAN)技术发展速度迅猛,但在实际应用中也遇到了很多难题,其中之一则是由于无线局域网的站点