文件类型识别技术研究

来源 :解放军信息工程大学 | 被引量 : 5次 | 上传用户:lollio
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文件类型识别技术旨在依据文件实体本身所表现出的特征判断文件的类型。快速准确识别文件的真实类型,在计算机取证、病毒防护、入侵检测系统、邮件过滤及隐写分析等应用研究领域具有重要的现实意义。本文从文件的整体结构、特征码和内容三个方面研究文件类型识别技术,主要研究内容包括以下几个方面:(1)针对目前文件类型识别算法仅从单一角度识别文件类型,识别结果不准确、效率不高的问题,本文在分析文件内部特性的基础上,建立了一个文件实体特性模型,为本文的文件类型识别算法奠定了基础。(2)针对现有基于结构的文件类型识别算法判断依据有限的问题,提出一种基于整体结构的文件类型识别算法。该算法根据特定类型文件的整体结构建立该类文件的约束规则集,通过考察待测文件与规则集中约束条件的符合程度确定待测文件的类型。实验结果表明,该算法简单高效,对完整文件的识别具有很高的正确率。(3)针对现有基于特征码的文件类型识别算法判断依据不足,对不完整文件类型识别不准确的问题,提出了一种基于限定区域特征码匹配的文件类型识别算法。该算法提取文件中各种功能的元数据作为类型特征码,并采用可变长滑动窗口对待测文件进行区域划分,通过考察特征码在相应区域中的匹配情况识别文件类型。实验结果表明,该算法误报率低,对篡改或损坏的文件具有较好的适应性。(4)针对现有基于字节值频率分布的文件类型识别算法以字节为单位,描述文件内容特性的能力有限的问题,引入元组的概念,提出一种基于元组频率分布的文件类型识别算法。该算法将传统算法中的字节扩展为元组,结合元组的分散度、稳定度和条件广泛度设计出一种元组评估函数,以评估值较高的元组集为特征元组建立文件类型的指纹模型;通过比较待测文件与各类型指纹模型的相似度识别文件类型。实验结果表明,该算法不依赖于特定文件类型的结构或特征码,适用范围广,与传统算法相比查准率和查全率有显著提高。最后,对全文工作进行了总结,并对文件类型识别技术进行了展望,提出了下一步的研究方向。
其他文献
【正】 一般认为生物技术是指利用生物系统来生产传统化学方法不能生产的过分复杂和贵重的物质或产品的技术。 新的生物技术是在10余年前从分子生物学和微生物学的研究中发展
【正】 一、自然条件及农业生产概况 澳大利亚干旱地区面积约625万平方公里,占澳洲大陆总面积的81%左右,其中沙漠面积113.6万平方公里,占14.8%;年降雨量在250—500毫米之间的半
"妈,你要不把我们送回网吧,我们就在这儿把你掐死。"小乾、小坤是双胞胎,平时一起上学、放学,一起沉迷于网络游戏不能自拔。当母亲将他们从网吧带回家后,两个孩子竟然合力架
市场对转基因食品的态度影响转基因产业发展。2/3强的北京居民对转基因知识仅是一般了解,7成北京居民对转基因食品风险持有较大和不确定的认知,有购买意愿的仅占26%。性别、
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
临终关怀是为临终病人及家属提供生理、心理、社会、精神等方面的全面支持与照护的一种特殊的医疗保健服务,是一项新兴的社会公益事业。然而,经过二十多年的发展,中国临终关