生物信息学有关的数据结构与智能计算问题

来源 :南开大学 | 被引量 : 0次 | 上传用户:jwh346048162
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着生物技术的发展,积累了越来越多的生物数据,对生物数据的存储分析形成了新的学科:生物信息学。生物信息学的发展是多种学科交叉的结果,但是另外一方面对生物数据的分析,新算法的开发对数学和计算机科学的发展也起到了一定的推动作用。本文就是对这方面的初步探讨。本文分三个部分,第一部分,从生物信息学中的生物序列的比对出发,将序列的突变推广到信息科学和计算科学中的广义差错,并且给出其应用:广义纠错码和容错复杂度。第二部分,使用模糊神经网络算法分析基因识别的因素问题,第三部分,给出一种新的聚类算法EMR算法,并将其应用于蛋白质的聚类中。 在数据处理问题中,差错的类型有多种,除了符号的变更外还有数据的丢失与插入等情况发生,我们统称这种差错为广义差错或突变误差.在计算机,信息论与生物信息学领域中,对这种广义差错都有研究,并分别对这种差错给以度量的定义,如在计算机与信息论领域称这种广义差错的度量为Levenshtein距离,编辑距离(Editedistance)或Evolutionary距离等,这些距离有的是等价的,也有是不等价的.在生物信息学中,为寻找序列的突变误差的发生的状况有一系列的比对(Alignment)计算方法与研究,由此可产生Alignment距离与Alignment空间,Alignment距离实际上就是Evolutionary距离.本文首先概述这几种距离的定义与相互关系,为研究广义差错的数据结构,我们引进它们的代数结构理论,并由此对Alignment距离满足三角形不等式给出它的严格证明,本文还讨论了最小罚分比对与最大得分比对的关系问题与广义纠错码的构造问题,给出了最优比对的不唯一性的例子,最小罚分比对与最大得分比对的不等价性与等价条件。在码长较小时利用Alignment算法可得到一系列最优的广义纠错码。 复杂度理论是计算机科学与密码学的重要基础,所谓容错复杂度就是允许数据具有差错时的复杂度,近年来在密码学研究中受到重视.本文对一般广义差错(符号改变、插入与删除),给出了它们一般的非线性容错复杂度的定义、计算与应用。 在真核生物外显子与内含子的识别中,由DNA序列可以产生多种结构的特征参数,如氨基酸的频率分布,Z-坐标等,我们称这些特征参数为外显子与内含子的识别因素.本文的目的就是分析这些因素,及它们的组合在基因识别中的作用.为此目的,我们采用了人工神经网络理论中的模糊感知器模型,建立相应的特征参数集与神经网络训练与识别模型,并以Burset-Guigo训练集为训练数据,以Hmr,H178,果蝇和拟南芥等数据集构成混合检验集,选择DNA序列的氨基酸的频率分布,Z-坐标等为该序列的特征参数,并对这些参数及它们的不同组合作学习训练与识别的因素分析,分别在单因素,低因素(因素数为2,3,4,5),高因素(因素数大于5)时,得到这些因素在不同组合下识别的精度指标,由此可以看到不同因素组合在基因识别中的作用. 聚类分析是数据发掘理论与统计学中的一个重要领域.常见的聚类分析类型很多,如系统聚类,中心聚类等,这些数据的聚类一般是以它们的距离为基础,把距离较近的数据归结为同一个类,本文提出的分布族的聚类分析问题,是指所讨论的数据是由一大批数据序列组成,由每个序列可确定它的分布结构(如频率分布,二重数据的联合频率分布等),由此就可以产生一分布族,为对分布族进行聚类分析,在本文中我们以Kullback-Leibler熵为不同分布的差异性度量,给出了相应的优化聚类算法,这种算法与EM算法或K-mean算法思路相似,但又增加一个新的递归运算步骤,所以我们称之为EMR(Expectation-Maximization-Recursive)算法,或KR-means(K-meansRecursive)算法,我们证明了该算法的最优性与收敛定理。
其他文献
本文通过介绍工程节能技术管理的重要作用,找出其中出现的问题,进而提出建筑工程施工节能控制对策。 In this paper, by introducing the important role of engineering en
本文首先通过反例指出了ShakedandShanthikumar(1994)对DRHR类的等价刻画实际上为其充分条件,然后利用休止时间给出了DRHR和IMIT类的充分条件。随后,研究了k-out-of-n系统的休
近年来,随着科学技术的发展,差分方程理论不仅在物理学、航天卫星等领域中有重要应用,而且在经济学、生物学、控制理论等自然科学和社会科学领域中也成为不可缺少的数学工具。在
在当前工程项目实际建设过程中,大型机电设备的安装管理工作具有十分重要的作用,随着近年来设备与规模的大型化,施工难度越来越大。此背景下,本文首先分析了大型机电设备安装
研究映照类的局部或整体的单叶性问题是复分析理论中既重要又困难的问题,比如如何获得Landau定理和Bloch定理为这方面的两大经典问题。1926年Landau给出经典的Landau定理,近十
党的十六大报告指出:必须坚持教育创新以发挥教育在现代化建设中的先导性、全局性作用。这就要求作为统揽工作全局的高校党委,必须以十六大精神为指南,以改革的精神,通过推
岩土工程勘察过程中水文地质问题十分重要,可以提高施工稳定性和安全性,防止岩土工程中出现人为因素的水文地质危害现象。岩土工程勘察中依据合理科学的方式来勘察各种水文地
进入21世纪,时代正在不断地发展,我们也迎来了信息时代。信息时代主要依靠的是计算机,可以通过计算机进行繁杂的数学计算和信息整理,而中职学校在这一方面的培养也是很重视的,现代
从Painlevé分析方法提出到现在,这一方法得到了很大的改进和发展。现在主要的Painlevé分析法包括ARS方法、WTC方法、Kruskal简化法、Conte展开法(共形不变Painlevé展开法)、P
现阶段,随着GPS技术的不断发展和广泛应用,提高了各领域对静态定位模式的重视程度,从而使得实时以及全方位地观测目标得以实现。GPS测量技术在工程测绘中的应用是工程测绘信