基于可压缩结构化数据的信息压缩理论研究与算法实现

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:zhq198709
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人类需求的不断提高以及信息技术的持续进步,基因测序和光谱成像技术也在高速发展着。技术进步为人们提供了丰富多彩的服务,但随着需求的增长与变化,我们正迎来海量信息的大数据浪潮。面对如存储空间、网络带宽、电池、分辨率、计算能力等方面的限制或要求,对于可压缩结构化数据的高效信号采集及压缩处理越来越受到人们的关注。在生物信息学中,基因序列的存储格式间相互关联,其中FASTA格式是一种测序后基于文本用于表示核苷酸序列或氨基酸序列的格式,SAM/BAM格式(SAM全称是sequencealignment/map format)是包含了完整的基因比对信息,成为后续基因片段分析处理的基础,并为不同测序平台产生的序列提供一个通用比较途径的格式。二十一世纪是生物医学世纪,随着测序技术的发展和测序机构的快速扩张,现存的基因数据尤其是FASTA和SAM/BAM格式的数据存在大量冗余。另一方面,随着压缩传感技术在多光谱成像领域的兴起,越来越多的多光谱成像系统通过满足压缩传感理论的编码孔径来实现。不管是FASTA格式以及SAM/BAM格式的基因数据,还是由编码孔径快照光谱成像系统产生的采样测量数据,这些数据都具有各自可压缩结构化的特征,如何提供相应的压缩方案去适应这些数据类型的结构化特征是信号处理领域的新挑战。针对FASTA格式,本文提出了一种基于非连续上下文建模和最大熵原则的基因压缩方法。在第一阶段,本文所提出的方法同时考虑了有参考序列和无参考序列两种实际情况,用字典方法表示基因序列内或间的重复序列,提高压缩效率;在第二阶段,将非连续上下文建模思想与传统的连续上下文建模思想相结合,提高了预测模型的多样性与全面性,更适应于以非传统规律排列的基因序列,同时利用最大熵原则得到Logistic回归模型进行模型合成,克服了以往贝叶斯平均法过度依赖单一模型而忽略其他模型有效性的缺点,并使得合成概率更加准确。相关论文“DNA-COMPACT: DNA COMpression Based on aPattern-Aware Contextual Modeling Technique”已在SCI期刊PLoS ONE上发表。针对SAM/BAM格式,本文提出了一种基于多参考序列的基因序列分级压缩方法。由于SAM格式的基因序列由11个强制域和多个可选域构成,该方法首先将原文件按域提取成12个独立文件,然后对12个文件进行并行压缩:对“Sequence”域,利用多个公开的参考基因序列,并将短序列长度逐步减半,多次比对目标序列以提高被压缩序列的比对准确率,进而提高压缩效率;对于“Quality Value”域采用用户可指定压缩等级的k均值聚类结合上下文建模PPMVC压缩的方法;对于剩下的10个域采用基于域内特征和域间相关性的压缩方法。该方案相对于现有的同格式的压缩方案既提高了压缩效率,又提供了压缩等级的多选择性,使得其更有适应性与扩展性。相关论文“HUGO:Hierarchical mUlti-reference Genome cOmpression For Aligned Reads”已在SCI期刊Journal of the American Medical Informatics Association上发表。压缩传感要求提供非相干采样的传感矩阵(采样矩阵),采样的非相干性就是要求用传感矩阵采集到的数据不应已存在于稀疏基内,这样压缩的采样值才能尽可能的保存更多信息。但相应地,传感矩阵得到的最终测量值信号也不再冗余,且不易于压缩。然而在多光谱成像系统中,研究学者们仍然希望能对压缩感知后的采样测量值进一步压缩,以便于其在环境遥感、天体物理学和军事目标检测等方面应用时的实时传输。针对单色散编码孔径快照光谱成像系统,本文首次提出对其产生的可压缩的测量值进一步无损压缩的思想。结合条件熵最小化模型,我们将压缩问题转化为变换问题,即寻找可压缩测量值矩阵的可逆变换,使得变换后的矩阵有更强的相关性从而易于压缩。在对可压缩测量值统计建模的基础上,我们证明了基于编码孔径的均值滤波(mean filter)式变换能将可压缩测量矩阵转换为一个与原始图像分布近似的矩阵,和一个可用编码孔径作为辅助信息进行位平面编码(bit plane coding)的稀疏矩阵。实验结果表明本文提出的方案对提升可压缩测量值的压缩效率有突出的效果。相关论文“Embedded Transform Coding based Lossless Compression in CompressiveSpectral Imaging with Coded Aperture”已被Data Compression Conference(DCC’2014)录用。
其他文献
目的:观察紫金膏配合椎间孔镜治疗腰椎间盘突出症的临床疗效.方法:将2016年8月 ~2017年8月在我院收治确诊为腰椎间盘突出症患者60例,根据治疗方案选择的不同分为对照组和观察
目的:探讨不同麻醉方式在老年人髋关节置换术中的应用效果和价值.方法:选取2015年8月—2016年8月间我院接收的行髋关节置换术治疗的老年患者58例,按照随机数字的方式,将其分
目的 探讨全髋关节置换术和半髋关节置换术治疗老年股骨颈骨折的临床疗效.方法 选取从2014年1月至2016年12月期间收治入院的老年股骨颈骨折患者中挑选60例作为本次研究工作对
目的:研究人眼外肌栅栏状神经终末结构(Palisade Endings,PEs)的形态、分布和功能,为指导临床相关疾病的诊治提供理论依据.方法:眼外肌手术时留取眼外肌附着端的肌-腱连接区
目的:探讨微创治疗胆囊结石合并胆总管结石的临床疗效.方法:研究对象为我院80例胆囊结石合并胆总管结石,于2016年10月--2017年10月间收治,按照手术方式,将LC(腹腔镜胆囊切除
目的:探讨双侧开颅手术治疗重型颅脑损伤临床疗效.方法:按照随机数字表法将2016年1月-2017年2月100例重型颅脑损伤患者分组.对照组采取传统手术进行治疗,双侧开颅组采用双侧
目的 了解乳腺癌患者自我感受负担的情况并探讨其与生活质量的相关性.方法 采用患者一般情况调查表、自我感受负担量表(SPBS)、癌症患者生命质量测定量表(FACT-G)对150名乳腺
目的:分析血液灌流联合血液透析治疗重症有机磷农药中毒的临床应用价值.方法:将2016年10月到2017年10月于本院实施治疗的54例重症有机磷农药中毒患者作为分析对象,随机编号法
运用文献资料法对乳腺癌内分泌治疗期后患者的生活质量状况和八段锦的养生康复机理两个方面进行分析.从绿色、健康、有效的角度出发,为乳腺癌患者寻求一种合适的运动方式,帮
目的 分析25% 硫酸镁与丹参注射液混合治疗胎儿生长受限的效果.方法 选取在本院接受治疗的胎儿生长受限患者118例,随机分为研究组(40例)、对照组1(39例)、对照组2(39例),三组