论文部分内容阅读
随着人类需求的不断提高以及信息技术的持续进步,基因测序和光谱成像技术也在高速发展着。技术进步为人们提供了丰富多彩的服务,但随着需求的增长与变化,我们正迎来海量信息的大数据浪潮。面对如存储空间、网络带宽、电池、分辨率、计算能力等方面的限制或要求,对于可压缩结构化数据的高效信号采集及压缩处理越来越受到人们的关注。在生物信息学中,基因序列的存储格式间相互关联,其中FASTA格式是一种测序后基于文本用于表示核苷酸序列或氨基酸序列的格式,SAM/BAM格式(SAM全称是sequencealignment/map format)是包含了完整的基因比对信息,成为后续基因片段分析处理的基础,并为不同测序平台产生的序列提供一个通用比较途径的格式。二十一世纪是生物医学世纪,随着测序技术的发展和测序机构的快速扩张,现存的基因数据尤其是FASTA和SAM/BAM格式的数据存在大量冗余。另一方面,随着压缩传感技术在多光谱成像领域的兴起,越来越多的多光谱成像系统通过满足压缩传感理论的编码孔径来实现。不管是FASTA格式以及SAM/BAM格式的基因数据,还是由编码孔径快照光谱成像系统产生的采样测量数据,这些数据都具有各自可压缩结构化的特征,如何提供相应的压缩方案去适应这些数据类型的结构化特征是信号处理领域的新挑战。针对FASTA格式,本文提出了一种基于非连续上下文建模和最大熵原则的基因压缩方法。在第一阶段,本文所提出的方法同时考虑了有参考序列和无参考序列两种实际情况,用字典方法表示基因序列内或间的重复序列,提高压缩效率;在第二阶段,将非连续上下文建模思想与传统的连续上下文建模思想相结合,提高了预测模型的多样性与全面性,更适应于以非传统规律排列的基因序列,同时利用最大熵原则得到Logistic回归模型进行模型合成,克服了以往贝叶斯平均法过度依赖单一模型而忽略其他模型有效性的缺点,并使得合成概率更加准确。相关论文“DNA-COMPACT: DNA COMpression Based on aPattern-Aware Contextual Modeling Technique”已在SCI期刊PLoS ONE上发表。针对SAM/BAM格式,本文提出了一种基于多参考序列的基因序列分级压缩方法。由于SAM格式的基因序列由11个强制域和多个可选域构成,该方法首先将原文件按域提取成12个独立文件,然后对12个文件进行并行压缩:对“Sequence”域,利用多个公开的参考基因序列,并将短序列长度逐步减半,多次比对目标序列以提高被压缩序列的比对准确率,进而提高压缩效率;对于“Quality Value”域采用用户可指定压缩等级的k均值聚类结合上下文建模PPMVC压缩的方法;对于剩下的10个域采用基于域内特征和域间相关性的压缩方法。该方案相对于现有的同格式的压缩方案既提高了压缩效率,又提供了压缩等级的多选择性,使得其更有适应性与扩展性。相关论文“HUGO:Hierarchical mUlti-reference Genome cOmpression For Aligned Reads”已在SCI期刊Journal of the American Medical Informatics Association上发表。压缩传感要求提供非相干采样的传感矩阵(采样矩阵),采样的非相干性就是要求用传感矩阵采集到的数据不应已存在于稀疏基内,这样压缩的采样值才能尽可能的保存更多信息。但相应地,传感矩阵得到的最终测量值信号也不再冗余,且不易于压缩。然而在多光谱成像系统中,研究学者们仍然希望能对压缩感知后的采样测量值进一步压缩,以便于其在环境遥感、天体物理学和军事目标检测等方面应用时的实时传输。针对单色散编码孔径快照光谱成像系统,本文首次提出对其产生的可压缩的测量值进一步无损压缩的思想。结合条件熵最小化模型,我们将压缩问题转化为变换问题,即寻找可压缩测量值矩阵的可逆变换,使得变换后的矩阵有更强的相关性从而易于压缩。在对可压缩测量值统计建模的基础上,我们证明了基于编码孔径的均值滤波(mean filter)式变换能将可压缩测量矩阵转换为一个与原始图像分布近似的矩阵,和一个可用编码孔径作为辅助信息进行位平面编码(bit plane coding)的稀疏矩阵。实验结果表明本文提出的方案对提升可压缩测量值的压缩效率有突出的效果。相关论文“Embedded Transform Coding based Lossless Compression in CompressiveSpectral Imaging with Coded Aperture”已被Data Compression Conference(DCC’2014)录用。