论文部分内容阅读
随着生物技术的发展,积累了越来越多的生物数据,对生物数据的存储分析形成了新的学科:生物信息学。生物信息学的发展是多种学科交叉的结果,但是另外一方面对生物数据的分析,新算法的开发对数学和计算机科学的发展也起到了一定的推动作用。本文就是对这方面的初步探讨。本文分三个部分,第一部分,从生物信息学中的生物序列的比对出发,将序列的突变推广到信息科学和计算科学中的广义差错,并且给出其应用:广义纠错码和容错复杂度。第二部分,使用模糊神经网络算法分析基因识别的因素问题,第三部分,给出一种新的聚类算法EMR算法,并将其应用于蛋白质的聚类中。
在数据处理问题中,差错的类型有多种,除了符号的变更外还有数据的丢失与插入等情况发生,我们统称这种差错为广义差错或突变误差.在计算机,信息论与生物信息学领域中,对这种广义差错都有研究,并分别对这种差错给以度量的定义,如在计算机与信息论领域称这种广义差错的度量为Levenshtein距离,编辑距离(Editedistance)或Evolutionary距离等,这些距离有的是等价的,也有是不等价的.在生物信息学中,为寻找序列的突变误差的发生的状况有一系列的比对(Alignment)计算方法与研究,由此可产生Alignment距离与Alignment空间,Alignment距离实际上就是Evolutionary距离.本文首先概述这几种距离的定义与相互关系,为研究广义差错的数据结构,我们引进它们的代数结构理论,并由此对Alignment距离满足三角形不等式给出它的严格证明,本文还讨论了最小罚分比对与最大得分比对的关系问题与广义纠错码的构造问题,给出了最优比对的不唯一性的例子,最小罚分比对与最大得分比对的不等价性与等价条件。在码长较小时利用Alignment算法可得到一系列最优的广义纠错码。
复杂度理论是计算机科学与密码学的重要基础,所谓容错复杂度就是允许数据具有差错时的复杂度,近年来在密码学研究中受到重视.本文对一般广义差错(符号改变、插入与删除),给出了它们一般的非线性容错复杂度的定义、计算与应用。
在真核生物外显子与内含子的识别中,由DNA序列可以产生多种结构的特征参数,如氨基酸的频率分布,Z-坐标等,我们称这些特征参数为外显子与内含子的识别因素.本文的目的就是分析这些因素,及它们的组合在基因识别中的作用.为此目的,我们采用了人工神经网络理论中的模糊感知器模型,建立相应的特征参数集与神经网络训练与识别模型,并以Burset-Guigo训练集为训练数据,以Hmr,H178,果蝇和拟南芥等数据集构成混合检验集,选择DNA序列的氨基酸的频率分布,Z-坐标等为该序列的特征参数,并对这些参数及它们的不同组合作学习训练与识别的因素分析,分别在单因素,低因素(因素数为2,3,4,5),高因素(因素数大于5)时,得到这些因素在不同组合下识别的精度指标,由此可以看到不同因素组合在基因识别中的作用.
聚类分析是数据发掘理论与统计学中的一个重要领域.常见的聚类分析类型很多,如系统聚类,中心聚类等,这些数据的聚类一般是以它们的距离为基础,把距离较近的数据归结为同一个类,本文提出的分布族的聚类分析问题,是指所讨论的数据是由一大批数据序列组成,由每个序列可确定它的分布结构(如频率分布,二重数据的联合频率分布等),由此就可以产生一分布族,为对分布族进行聚类分析,在本文中我们以Kullback-Leibler熵为不同分布的差异性度量,给出了相应的优化聚类算法,这种算法与EM算法或K-mean算法思路相似,但又增加一个新的递归运算步骤,所以我们称之为EMR(Expectation-Maximization-Recursive)算法,或KR-means(K-meansRecursive)算法,我们证明了该算法的最优性与收敛定理。