文本分类在电子取证领域的应用研究

被引量 : 0次 | 上传用户:youjiaxiaogege
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术和计算机技术的蓬勃发展,计算机在给人们生活带来便利的同时,以计算机作为作案工具的计算机犯罪案件也愈演愈烈。通过电子取证技术搜集电子证据成为侦破计算机犯罪案件一个研究热点。在进行证据获取时,面对数量繁多的电子文档,如何快速准确地辨析电子文档的真实类型以及从大量文本数据中提取出有用信息是取证人员面临的一个主要问题。广泛应用于信息检索、商业智能、邮件自动分类等领域的文本分类技术是解决问此题的一个有效方法。本文立足于解决电子取证领域证据获取时的文件类型识别和文本数据过滤问题,对电子取证和文本分类的相关技术进行了学习和研究。首先,讨论了电子取证的一般过程,包括证据固定、证据获取、证据分析和证据提交,指出了在证据获取阶段取证人员可能遇到的两个问题:一个是如何快速准确地识别文件的真实类型以对抗反取证技术;另一个是面对数量庞大、信息杂乱的文本数据如何过滤出感兴趣的信息,从而减少取证人员的工作量;其次,本文介绍了文本分类的一般流程、几种常用的特征选择算法、三种分类算法和性能评估标准;然后,文章以文本分类的方法应用于电子取证领域为切入点,提出了基于二进制字节流的N-gram特征提取方法识别文件类型以及基于类别区分度的改进tf*idf算法过滤某一主题文本信息;最后,本文分别设计了实验来验证这两种方法应用于证据获取的可行性,并对实验结果进行了分析。实验结果表明:使用N-gram算法对文件字节流提取文件的类型特征可以有效地识别文件类型,其中3-gram算法的识别效果最好。基于类别区分度的改进tf*idf算法具有良好的分类效果,可以准确地过滤文本信息。实验结果还表明改进tf*idf算法稳定性好,适合于特征维度较小的情况。
其他文献
企业社会责任是社会和谐的客观要求,也是企业发展的内在需要。作为国有经济的骨干和支柱,港口企业在支撑、引导和带动经济社会发展,发挥国有经济的控制力、影响力、带动力方
文中以航运企业为例,分析了航运企业社会责任的发展现状和主要问题,梳理了影响我国企业社会责任发展的原因并提出了一些建议。
我国是一个农业大国,农业的快速发展使得我国的该行业不得不采取工业化的方式.这一方式虽然带来了很大的便利之处,但是却也出现了很大的问题.那就是在农业生产过程中会应用大
中国地方政府在当地经济和社会发展中扮演着不同的角色,具有不同的行为特征,基于一定的指标数据,采用主成分分析和聚类分析方法分析中国省级地方政府的行为特征,依据提供公共
现代物流业的主要组织形式是第三方物流,第三方物流中心选址模型的建立及其算法的研究对物流系统企业今后的发展具有很大的指导作用。结合图论中Floyd算法求最短路径的思想,
以甘油、氧化锌为原料制备甘油锌。用单因素实验法探究了合成甘油锌的最佳条件。采用刚果红法、热老化烘箱法和动态流变测试研究甘油锌在PVC热稳定剂中的应用,结果表明甘油锌
<正> 在漫长的进化过程中,自然界的生物发展了自己的调节控制其生长发育、新陈代谢以及应付各种外界环境的本领。生物体内核苷酸类的化合物在生物体的调节中也起着重要的作用
目的探讨蛛网膜下腔置管持续引流在颅内感染中的治疗效果。方法将该院2002年3月至2006年6月行蛛网膜下腔置管持续引流治疗颅内感染的30例病人,与1996年至2002年3月我院采用腰
本文尝试在建筑学的理论基础上,运用统计学中描述统计法,对荥阳地区传统民居砖雕的实地踏勘测绘所总结的数据库中的墀头部分进行分类,并控制从理论层面推导得出的定量变量,得