生物序列特征信息提取方法及其应用

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:hechangying1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着后基因组时代的到来,生物学研究的重点已转向分析解释日益积累的海量数据,生物信息学(也称计算分子生物学)便应运而生,研究内容十分丰富,而其中的序列相似度分析尤为重要。这必然会涉及到生物序列的表征方式,以及序列特征信息的提取方法等核心问题。本文从现有的一些方法普遍存在的问题着手,在算法设计层面和数据应用层面上展开了一系列研究,提出了六种有效的特征信息提取算法模型,并和相关研究成果进行了理论与实验上的比较,验证了我们所提出算法的有效性。全文的主要工作概括如下:(1)生物序列的图形化表示,为我们提供了一个可供研究序列的可视化工具。为了直观地比较不同的DNA序列,本文提出一种新的特征信息抽取模型,可对序列作图形化表示,并作序列之间的相似度分析。引入变换将每条DNA序列用近邻核苷酸矩阵(NNM)来表示。再基于近似联合对角化(AJD),从每条DNA序列变换所得的NNM矩阵中抽取特征值作为表征向量(EVV),视每条EVV向量为各自所对应序列的数值描述子(Descriptor)。基于表征向量EVV可得DNA序列的二维表征图形。此外,利用k-均值法将这些表征各条序列的曲线图聚为若干个合理的子类。利用所得向量计算成对距离(Pair-wise Distance),以用来分析原始序列之间的相似度。本方法能同步、联合地从多重序列中抽取更多的信息,而非孤立地分析各条序列。在经典数据集上,构建系统树图验证了本方法的有效性。(2)为了比较不同的基因组序列,提出了新的非比对序列比较方法:考虑到序列具有“序”这一本质属性,基于16种不同类型的2-mer,也即双核苷酸(dinucleotides),定义一种复合变换,能将每条基因组序列转换成16×(L—1)的特征矩阵M。此外,我们还发现上述变换具有“保序”的特性。由矩阵分析理论,对矩阵M施以奇异值分解,来导出16维的向量用以描述每条基因组序列。最后,运用此算法对20条真哺乳亚纲线粒体基因组序列作相似度分析。实验结果表明,在基因组序列图形化表征及相似度分析方面,本算法表现较好。(3)为解决基因组序列维数较高,直接在低维空间数值表征很困难。本文还提出了具有“保距”特性的基因组序列的非比对模型。先将基因组序列转换成16×(L—1)的稀疏矩阵M,对所得矩阵M施以奇异值分解,便得16维“特征值”向量F用以表征每条基因组序列。通过主成分分析(PCA),将所得的前几个主元用于序列之间的比较。从理论上证明了:a)模型属于保距变换;b)16-元组向量与最近邻的双核苷酸数目相关密切。利用“特征值”向量F构建了各组哺乳动物基因组序列系统树图。此外,由主成分分析所得的前两个主元绘制物种的二维"Map图”,用以表征所涉物种间的亲缘关系。分析结果符合已知的哺乳动物谱系关系,揭示了线粒体基因组以及全基因组序列均能很好地将不同物种区分开来。本章的算法抓住基因组序列“序”的特性、能够将字符序列“保距”地变换(distane-preserving transformation:DPT)为低维向量空间中的数值向量。尤为值得一提的是,DPT算法非常适合大规模数据集(譬如:10条哺乳动物的全基因组序列数据集,序列平均长度达到2兆bps)。(4)基于所有各种近邻氨基酸(AAA)的分布情况,可将每条蛋白质序列映射成400×(L-1)的矩阵M,对M施行奇异值分解,从而可得从原始蛋白质序列抽取出归一化的数学描述符D,其维数为400。所得的400维归一化“特征”向量(NFV)便于对蛋白质序列作定量分析。运用蛋白质序列的归一化表示形式,遴选两个典型数据集作相似度分析。与相关研究工作所得结果对比研究表明,本算法(NFV-AAA)在蛋白质序列相似度分析领域,取得了较好的效果。(5)由于计算开销大的原因,传统的多重序列比对(MSA)不再适合基因组规模上的序列比较。本文还提出了改进的K-mer法:将序列分成若干段,并同时将每一段转换成相应的K-mer。该算法的关键在于确定出距离测度d、K值以及段数s的最优组合(矿,s‘,r)。基于从寻优分成的s*个片段的序列转化而来串联在一起的“特征”向量,运用所提出的分段K-mer模型(即:s-K-mer),获得34条哺乳动物线粒体基因组序列的系统树状图。结果表明序列相似度分析时,s-K-mer方法运行效果优于传统的K-mer方法。(6)比较多重基因组序列时,不仅只考虑全局相似性,还须考虑局部相似性。从信号处理的角度,本文还提出了拟用于基因组序列比较的新算法:先将各条基因组序列分成若干个片段,每段同时转换成相应的K-mer-based的向量,此过程可以视为将多重基因组信号经过虚拟传感器’virtual mixer’(VM)混合后的数值输出,实现了将长度迥异的原始序列转换为等长的向量。随后,利用ICA-based变换,可将上述混合输出的向量组向独立主成分投影,由此经过’projection extractor’(PE)捕获得到其投影向量;并从理论上严格证明了复合变换具有保距特性。此外,作为改进,引入双层VM-PE模型,以提高相似度分析的性能。而且经过层级VM-PE模型(HVMPE),大大降低了数据的维度。利用所提出的HVMPE模型,运用于两个线粒体基因组序列数据集作相似度分析,对比分析表明HVMPE模型明显好于现存的一些算法。
其他文献
寒地城市具有特殊的气候特点和人文特色,植物景观在寒地城市街旁绿地设计过程中具有重要的作用.本文对寒地城市、植物景观等相关概念进行论述,并提出了寒地城市街旁绿地植物
本文对《红楼梦》中关于林黛玉的几首主要诗词曲进行了分析和评论,指出它们对表现人物命运、刻划人物性格、诠释主题思想所起的作用。
纵向一体化是企业沿着产业链占据若干环节的一种内部扩张形式,包括前向一体化和后向一体化两种模式。纵向一体化不仅能够优化产业布局,提升企业竞争力,而且能够为企业带来范
通过分析经济全球化背景下房地产行业的发展特点,提出房地产专业人才培养模式变革的必要性,并且从正确认识和确立房地产的专业地位、建立房地产专业人才培养的层次性观念、重
随着我国网络购物的日益普及,电商物流配送业务量随之增长,我国现有的物流设施在非节假日期间的利用率已经达到较高水平,但电商在节假日促销产生的订单量却超出了快递企业的
相同浓度的HTO和HT,ICRP给出它们的辐射危害比为10 000:1。所以在不同组份氚源同时存在的情况下,必须进行氚甄别测量,以便为涉氚工作人员的辐射防护和环境安全评价提供合理有
介绍了一个100M eV直线加速器(L INAC)的控制系统,该系统采用分布式控制体系结构,采用大型分布式控制软件EP ICS作为开发平台。描述了系统的构成、EP ICS的软件结构、控制原
利用点绘制方法采用不规则分布的点云来表征物体表面的特点,提出一种基于点绘制技术和非均匀有理B样条曲面拟合技术的低压电器开关电弧动态几何模型仿真方法,讨论了低压电器
通过对《红楼梦》"宝玉挨打"之后这一段文本的会话结构的描写分析,可以全面揭示话语者之间的深层关系。这种方法也可以运用于整个《红楼梦》文本的分析,从而为《红楼梦》文本