生物分子数据的距离度量及其应用

来源 :大连理工大学 | 被引量 : 4次 | 上传用户:yanqingilu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物分子数据的比较是生物信息学最基本最重要的工具之一。通过序列比较,我们可以从大量的序列数据中获取生物序列中的功能、结构和进化信息。生物信息学的许多其它领域,如数据库搜索,系统树构建,蛋白质结构和功能的预测,序列片段的拼接等都需要首先确定生物序列间的距离度量。目前广泛使用的序列比较方法是比对,然而该方法存在着计算复杂度高,对序列进化模型的假设较为苛刻等缺陷。因此,发展有效的不依赖于比对的序列比较方法,并探讨其在生物信息学其它领域中的应用,特别是基于全基因组的系统发育分析,是一个非常有意义的课题。本文就两类常用的“非比对”序列比较方法进行了探讨。论文的主要内容安排如下:第二章给出了两种基于序列中字符串出现频率的序列比较方法。第一种方法是对经典相对熵方法的修正,该方法可以避免相对熵在确定两个字频率向量距离时,由于字符类型缺失而导致的退化现象。第二种方法在字出现次数服从Poisson分布的假设下,我们定义了字的表达水平,用字表达水平的差异来刻画两条序列之间的距离。通过构建包含SARS-CoV在内的25个病毒全基因组的系统发生树,上述方法的有效性得以验证。第三章研究了基于符号序列复杂度的距离度量。该距离度量利用两条序列条件压缩的思想,对序列的进化模型假设较少,因此一些进化操作,如基因组重排等,对此度量影响较小。作为其应用,我们将其与k近邻算法结合,预测了蛋白质的亚细胞位点。另外,对于蛋白质结构的比较,我们提出了一种“符号化指派”的方法,可将蛋白质结构的比较转换为符号序列的比较。同样利用此度量,我们构建了24个蛋白质结构的相似性树。特征序列是DNA序列的一种粗粒化描述,对特征序列的研究可以从不同的角度反映初始DNA序列中所含的生物信息。在本文的最后一章,通过构建3个常用数据集的种系发生树,我们对三种特征序列所含进化信息进行了探讨。
其他文献
介绍了以蓄电池为动力的蓄电池电机车变频控制系统的设计。电机车电气系统包括动力电池、整车控制系统、变频调速系统等。整车采用CAN总线的通讯方式对车辆进行控制,并实时监
目的研究血液透析患者发生心脏瓣膜钙化的相关因素,分析预后情况。方法回顾性分析50例血液透析患者的临床资料,统计其中有心脏瓣膜钙化和无心脏瓣膜钙化的患者,研究发生心脏
护理作为一门职业,已经有上百年的历史,但作为一门独立的学科,形成自己的理论体系和研究范畴始于20世纪60年代。随着我国经济的发展,护理学科也迅速发展,以疾病为中心的护理已发展
课程观是杜威教育思想中的重要内容。其课程观对我国当代基础教育课程改革产生积极的影响:增强学生的主体性,建立新型课堂教学模式;提倡"研究性学习"的学习方式,培养学生的探
以问卷调查的形式从生物实验室基础条件,学校、教师生物学实验教学的认知情况,高中生物实验开设情况等几个方面,对天水市4所省级示范高中50位任课教师做了调查。调查结果显示
员工“过劳死”难被认定工伤。法官建议——“过劳死”入法,归为职业病
针对国内常用的双支承辊下引纸复卷机的工艺特点,探讨了退纸辊恒张力控制系统中卷径偏差对纸幅张力扰动的影响,指出在退纸辊卷径逐渐减小的开卷过程中,必须对卷径估算值进行偏差
在机场向“智慧化”、“数字化”运营的转型过程中,为了提高航站楼内的服务质量,为了实现航站楼内高效的业务运作以及资源的合理分配,机场必须要精准的预估出航站楼内旅客人数的变化情况。只有这样才能在旅客离港过程中,合理地配置航站楼内的服务资源,及时地解决旅客困境,减少高峰期的拥堵,降低旅客排队等候的时间,从根本上提高旅客的出行品质。因此,在机场航站楼内能够对短时段的值机客流量进行相对准确的预测,是提高服务