论文部分内容阅读
在信息技术迅猛发展的今天,数据编码技术广泛应用在计算机、多媒体和通信等多门学科领域,成为基本工具和基础研究问题之一,在各类研究和应用的发展中扮演重要角色。本文提出一种基于组合学的数据编码新方法,简称组合编码,它根据自身性质和优势,可以在数据压缩、数据保密等多个领域发挥作用,对于信息的处理和存储传输具有重要意义。组合编码方法是根据组合学原理,利用字符序列空间与其序数空间的关系进行编码。该方法需要编码与解码双方预先约定一个基准序列,编码时可以根据该基准序列计算出序列对应的序数,解码时则可以根据该基准序列由序数回推出原序列。序数计算是组合编码的技术关键。本文对序数性质进行了研究:序数取值取决于基准序列;序数大小取决于字符频率分布。由于组合编码方法涉及的运算量很大,因此本文研究了相应的旨在提高运算效率的优化算法。分析了不同数进制对序数计算速度的影响,发现数进制长度与运算速度基本成正比。本文还采用比例运算以替换计算量庞大的排列组合运算,推导出相应迭代公式,优化了序数计算过程,减少了运算量,从而提高了序数计算速度。此外,还对某些特殊情况进行了研究。总之,优化算法提高了组合编码方法的运算效率。为了进一步提高组合编码运算效率,提出了并行技术。有两种并行编码方法:段内并行编码和段间并行编码。段内并行主要采用多线程技术实现,其关键技术是对序列进行拆分;段间并行算法主要是针对多处理机进行了初步探讨。组合编码技术可用于多个领域的研究与应用。本文利用组合编码中有关序数空间小于序列空间这一性质对数据进行压缩,即当原序列长度与序数长度之间所节省字节足以抵消字符频率表及其它辅助信息空间时,便可以进行组合压缩。组合压缩技术充分体现有重复即有冗余这一事实。为了便于实验,需要选取一个合适的分段长度。为此对内容无规律的随机文件中分段字符频率分布规律进行了研究,该研究对于频率表的压缩优化乃至整个组合压缩技术的实现起到关键作用。本文还研究了组合压缩与算术压缩、字典压缩之间的关系。组合压缩是一种结合算术压缩技术的字典压缩方法,是一种不依赖概率统计特性的通用压缩技术。它适用于压缩无记忆信源,特别适合压缩字符频率相近的无记忆信源。理论分析表明当序列长度足够大时,组合压缩比字典压缩更加逼近压缩极限。该压缩技术配合其它压缩方法可以使最终压缩效果更逼近信息熵,在一定空间下能够尽可能多的存储数据,节省资源。有关组合编码方法的研究,今后的工作还有很多,特别是优化技术和并行算法设计,在加密解密等其它应用方面也有很大扩展空间。