论文部分内容阅读
该文第一章对课题研究需要用到的生物学背景知识和生物信息学的主要内涵作了扼要的介绍,说明了该课题研究的学术意义和应用价值,以及该课题具体研究的内容.该文第二章从序列特征片断CpG岛建模,说明了研究隐马氏模型的必要性.接着,列出了隐马氏模型及其在实际应用中面临的三个关键问题,并给出了具体的求解过程.然后,介绍了在生物信息学中常用的隐马氏模型:剖面隐马氏模型、基因发现器隐马氏模型和跨膜蛋白结构预测隐马氏模型等,反映了隐马氏模型在生物信息学中起着越来越重要的作用.最后,通过对国外隐马氏模型的应用状况进行了总结,列举了现有的隐马氏模型软件及隐马氏模型数据库和模型库.该文第三章围绕着剖面隐马氏模型展开各方面的讨论.首先,阐述了计分矩阵的统计显著性,剖面隐马氏模型作为多重序列联配的统计框架和各种得分;如负对数似然得分、Z-得分和对数差异得分.接着,基于贝叶斯推断分析,在假设剖面隐马氏模型参数(包括状态转移概率和符号发出概率)的先验分布均为Dirichlet分布的前提下,推导了贝叶斯Baum-Welch重估计(EM)算法公式.然后,我们使用实际的例子说明了Baum-Welch重估计(EM)算法是一种局部优化算法,最终的剖面隐马氏模型的质量取决于初始参数的选取.基于模拟退火算法的思想,在加入随机扰动的情况下,验证了初始解的随机选取对最终结果基本没有影响.最后,对基于启发式方法和极大化后验构建算法确定和调整剖面隐马氏模型主状态数进行了比较研究.用实例说明了用贝叶斯信息准则在选取模型主状态数时的有效性.该文第四章针对剖面隐马氏模型训练算法的不足之处,首先提出了一个两阶段(参数和构形)交替优化算法,它能自动地从数据估计参数和优化构形,简称为自适应剖面隐马氏模型.通常为确定剖面隐马氏模型将训练分为两个阶段:第一阶段是指在模型主状态数已定时从训练序列数据集训练剖面隐马氏模型的参数(状态转移概率和符号发出概率);第二阶段是指从训练序列数据集确定剖面隐马氏模型的主状态数,往往是采用启发式方法或人工比较的方法.而自适应剖面隐马氏模型使得在参数估计的同时,模型拓扑构形也能自动地得到优化,实现了机器学习的智能化.接着,给出了单序列数据和多序列数据训练自适应剖面氏模型用到的算法公式.然后,给出了自适应剖面隐马氏模型总的算法框图、并行实现的过程以及使用指南.最后,将自适应剖面隐马氏模型软件应用于多重序列联配,并与国外现存的多重序列联配软件进行了比较.该文的结论部分对所做的工作做了概括,并对进一步的研究工作指出了方向.