论文部分内容阅读
生物信息学的发展是多种学科交叉的结果,在众多领域中都有研究,并拥有多重身份,能够为更多生命科学研究做出贡献。随着生物信息学数据库的快速增长,如何有效的组织分析、处理这些海量的基因数据,从中提取出有效的医用和生物信息,越来越成为学者们关注和研究的热点。基因特征提取是分析数据和处理数据的重要技术,在生物信息学中有着广泛的应用,比如研究基因的共同功能等方面。目前,基因特征提取的方法有很多,本文在已有的特征提取方法之上,加入新的知识,并通过实验结果比较来说明该方法的优越性。本文主要工作如下:(1)针对基因序列分类的特点,结合模糊聚类分析方法,在原有Markov链模型基因聚类方法的基础上,引入核酸碱基对的相互作用值,得到具有双重性质特征的距离矩阵,并根据模糊聚类分析方法得到模糊相似性矩阵和动态聚类图,从而实现对基因序列的分类。通过对包括人类16个物种的16条p53基因序列进行模糊聚类,聚类结果表明物种关系越相近,更容易聚成一类。此外,还将检验双重性质的矩阵方法与原来的单一性质方法作聚类结果进行对比,发现具有双重性质的方法更准确。(2)Markov链模型中利用碱基对的转移概率提取特征向量的方法,忽视了碱基对的位置信息。基于此,通过计算基因序列碱基对的平均数、期望和方差的特征向量,构成了48维特征向量方法;并计算序列中单个碱基的平均数、期望和方差特征向量,构成的12维特征向量方法。利用上述两种方法对p53基因、哺乳动物线粒体和禽流感病毒(H7N9)数据集进行聚类分析,实验结果表明,利用48维特征向量方法聚类的结果能够更加准确地反应生物信息学的本质特征。(3)为了避免计算量偏大,本文引入了具有一定的物理特性的核苷酸游离电子的平均能量(EIIP)方法,将DNA序列映射成数字信号,利用功率谱对基因序列的三周期性进行分析,其次,采用离散傅里叶变换方法得到基因序列的特征频谱,构造12维特征向量方法。这种方法既包含了基因序列中碱基的位置信息,又可以简化计算;选取p53家族基因数据进行分层聚类,和VOSS映射功率谱的DNA序列分析方法进行对比分析,结果表明本文方法更优。