基于机器学习的数据碎片类型识别技术研究

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:silas20
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在数字取证、入侵检测和逆向工程等领域,经常会遇到一些类型未知或格式不明的数据或文件片段。如何快速识别出这些数据的数据类型或所在原文件的文件类型是一个至关重要的问题。本文针对已有的方法往往存在识别颗粒度粗糙的问题,特别是在遇到流行的复合文件碎片时识别效果不理想的问题,对基于机器学习的数据碎片类型识别技术进行了研究。首先,分析并总结了已有的数据碎片识别方法的优缺点。本文分析并总结了当前基于相似性度量的方法,基于机器学习的方法,以及转化为图片分类问题的方法等数据碎片类型识别方法的优缺点;指出这些方法大多是依据文件类型的,即试图推断出一个单独碎片来自哪种类型的文件,存在颗粒度粗糙且准确率低的问题,特别是在遇到流行的复合文件碎片时识别效果往往不理想。其次,为了解决识别颗粒度粗糙且准确率低的问题,本文提出了一个更精确的碎片识别问题的定义,并在此基础上提出一个使用机器学习算法、依据数据类型进行数据碎片识别方法。该方法首先通过分析常见的文件格式及其数据结构,得到常见的数据类型并构造数据集;然后将数据集分为训练集和测试集两部分,并提取碎片特征;之后使用机器学习算法和训练集中的数据构建分类器;最后使用测试集中的数据检验分类器分类效果。该方法在识别碎片类型时依据数据类型,与已有的依据文件类型的方法相比,准确率提高了约20%,并且减少了碎片类型识别颗粒度。此外,本文在实验中使用了多种机器学习算法,对比分析了它们的优缺点。最后,将提出的方法应用到PPT文件碎片识别技术中。PPT文件类型是一种复合文档格式,在依据文件类型的方法中,其碎片识别率一直很低。本文分析了其文件格式,找出了其内部常见的数据类型,探讨了其难以识别的原因,并将依据数据类型进行数据碎片识别的技术应用到PPT碎片识别中。实验结果表明,本文提出的方法与依据文件类型的方法相比,准确率提高了52%。本文把碎片的文件类型识别问题转换为更精确的数据类型识别,使用机器学习方法进行碎片识别,对数据碎片识别问题进行了有益的探索。所提出的方法不仅可以提高数据碎片识别的正确率,而且减少了数据碎片识别的颗粒度。
其他文献
随着Internet的迅速发展,越来越多的Web应用展现在我们面前,在海量的网络信息中,有不少的糟粕信息夹杂其中,极个别的不法分子利用网络的高效性和隐蔽性,在国际互联网上散播反动、
自从70年代中期计算机图形学出现以来,基本上都是用线性代数为其数学框架。现在将要使用的另一个数学系统是几何代数,尤其是五维共形几何代数,它统一了图形学中使用的各种数
Web服务作为工业界的一个标准,是未来互联网重要趋势之一。将语义Web的核心技术——本体应用于Web服务,形成了语义Web服务。语义Web服务在标准的Web服务描述中添加了语义信息,使
随着信息技术的迅速发展,无线传感器网络得到广泛的研究和应用。洪泛协议作为无线传感器网络的最基本路由协议,支撑高层的协议和相关的应用。但现有的洪泛解决方案主要集中在单
计算机科学不断发展,技术不断进步,带来了一个严峻的问题,那就是破解技术也进一步提高,对数字媒体内容的盗版变得日益猖獗,传统的保护方法已经不能起到保护的作用。随着下一
随着计算机技术的发展与经济全球化,越来越多的组织采用工作流技术以提高竞争力和适应变化的能力。作为创建、执行和管理工作流的系统软件,工作流管理系统存在广阔的市场前景
互联网使得信息的传输交流变得比以往任何时候更快捷方便,但也给信息安全带来很大的隐患。文本是信息中最主要的形式,如何使得秘密文本信息能通过互联网进行安全、隐蔽而便捷
基于摄像头的新型实时交互手段是在传统人机交互手段,例如键盘鼠标等之上的一种很好的拓展。特别是使用两个摄像头同时进行拍摄,可以充分模拟人的眼睛对客观世界的感知,从而
高可靠性软件是当今软件开发的热点问题.确保算法程序逻辑结构正确最理想途径是算法程序的形式化推导和证明。循环不变式在软件形式化方法中占有十分重要的地位,它是理解、证
客户关系管理(Customer Relationship Management,CRM)是以“客户为中心”经营理念的集中体现,它是在商业竞争日趋激烈,客户个性化要求更明显的环境下应运而生的。CRM的本质