【摘 要】
:
如今恶意程序是互联网遭受的主要威胁之一,僵尸网络、钓鱼网站、恶意邮件等等本质上都是恶意程序,通常也简单地将恶意程序称为病毒。安全厂商每天收到成千上万份病毒样本,为了尽
论文部分内容阅读
如今恶意程序是互联网遭受的主要威胁之一,僵尸网络、钓鱼网站、恶意邮件等等本质上都是恶意程序,通常也简单地将恶意程序称为病毒。安全厂商每天收到成千上万份病毒样本,为了尽快处理这些安全威胁,安全厂商需要快速而准确地从这些样本中提取共性并家族化,从而以病毒家族为单位提供解决方案。目前国内外学者对聚类算法做了大量的研究,但针对海量病毒样本的聚类研究较少。
本文主要研究基于行为分析的病毒家族聚类方法,利用设计的可伸缩性聚类方法将输入的海量病毒样本聚类,提取并优化病毒家族特征集,为制作病毒家族清除脚本提供支持。本文设计和实现了病毒程序聚类系统。
首先,本文深入研究了病毒程序的行为及家族化特征,介绍了常见的聚类算法,并重点介绍了聚类算法在病毒家族聚类上的应用及其不足。
然后,论文在现有病毒聚类方法的基础上设计了一种可伸缩性的聚类方法。本文在分析现有聚类算法的特征后,选择扩展K均值和局部敏感哈希算法作为基础算法设计了二级聚类方法,能够既快速又准确的聚类海量病毒样本。二级聚类方法为层次结构,先由局部敏感哈希算法进行初次快速聚类,后由扩展K均值算法进行二次细致聚类。这种层次结构主要继承了局部敏感哈希算法的高维数据处理能力和海量数据快速处理能力,同时也继承了扩展K均值算法的准确性特征。
接着,使用本文设计的二级聚类方法设计并实现病毒聚类系统,介绍各个功能的设计及实现方法。病毒聚类系统主要包括预判模块和聚类模块,聚类模块负责将海量病毒样本聚类处理,预判模块则负责检测和处理查询样本的家族信息。
最后,对实现的病毒聚类系统进行测试,包括有效性测试、性能测试以及对比测试。测试结果证明了本文设计的聚类系统具有很高的时间效率和较高的准确性。
其他文献
随着风力发电成为世界上增长最快的可再生能源,为保持风电的长期稳定发展,需不断降低风电安装和运行维护的成本。由于风机系统是复杂的时变非线性的特点,一般的方法很难提取精确
城市轨道列车作为重要的城际间交通工具,在近几年来发展迅猛。在轨道列车迅猛进步之际,为了使得列车能够安全行驶、准点到站,运输效率更高,满足旅客舒适度和环保节能的需求,
随着信息技术水平的提高和企业对网络的依赖性日益增强,网络安全状况面临着巨大挑战。攻击者和网络安全管理人员始终上演着攻击预防大战。攻击者的攻击方式日新月异,安全管理人
医学图像三维重建是借助于可视化技术将医学图像重建成三维模型并显示出来,具有重要的研究和应用价值。MarchingCubes方法是三维重建中应用广泛的面绘制方法,但会生成大规模
随着社会的不断发展,人们的经济条件和生活水平不断提高,越来越多的食品安全问题被曝光使得人们对其关注度不断提高,然而这些食品安全事故严重威胁着人们的身体健康和精神健
网络编码允许节点对多个数据包进行运算编码,当接收节点收到足够数量的编码包后,可以应用相应的编码系数进行解码。相关研究表明,当网络编码被应用于组播及无线网络传输时,可
覆盖算法作为一种构造型分类建模算法,以其训练速度快、分类效果好而著称。在现今互联网时代,时常面对较大的数据集训练和分类的挑战,因此提升机器学习算法的训练速度和分类
高光谱图像通常具有纳米级的光谱分辨率,能提供丰富的地物空间信息和光谱信息,被广泛应用在精细农业、环境监测、现代军事等诸多领域。高光谱图像在具备诸多优势的同时也存在光谱维度高、光谱相关性大、噪声多、样本少等特点,这给高光谱图像分类过程带来了诸多问题和挑战,研究如何解决上述问题提高分类效果,是高光谱遥感领域的重要研究课题之一。针对高光谱图像分类过程中样本难以获取、样本数量少的特点,本文从降维、去噪和特
在非结构化P2P网络(unstructuredpeertopeernetworks)中,由于对网络的节点及资源分布没有统一的管理,资源的查找易形成大量的网络查找消息负载。同时由于网络节点的异构性,节点在
海量数据的增长使得有用信息和知识的获取变得更加困难,作为一种能自动、智能地将待处理数据转换成有用信息和知识的数据处理、分析技术,数据挖掘已经在各行各业的知识发现和数