论文部分内容阅读
信使RNA(mRNA)多聚腺苷化是真核生物基因表达的一个重要步骤。Poly(A)位点(多聚腺苷化位点)标志着基因表达的末端,对于研究基因表达、基因注释、基因调控等有重要的价值。对于poly(A)位点的相关研究不仅可以帮助人们了解真核生物基因3末端序列的调控机制,更有助于人们理解基因转录和基因表达的相关原理。 直系同源基因是分布于两种或两种以上物种基因组中,由于物种分化而享有共同祖先的同源序列。通常认为不同物种中直系同源基因功能高度保守,在基因序列编码、结构和生物学功能上极其相似。基因进化历史的重现和物种新发现基因的功能预测等都依赖于不同物种间直系同源基因集群的识别。 本文利用计算机和网络手段来处理、分析和展示海量的生物学数据,挖掘隐藏其中的知识和信息。本文面向植物多聚腺苷化位点数据平台及识别算法和植物直系同源基因数据平台及识别算法两个具体问题进行了研究。主要研究内容有: 1.提出了模块化的多聚腺苷化位点识别框架,搭建了在线poly(A)位点识别平台PASPA。本文设计了包含算法选择、模型构建、参数估计、多聚腺苷化位点识别、EST序列基因组定位(对拟南芥、衣藻和水稻)和数据在线展示六个数据处理步骤的识别框架。针对拟南芥、水稻和藻类EST数据特点,本文设计了动态的带标记折线图来显示EST序列的打分以及poly(A)位点识别结果。 2.基于广义隐马尔可夫模型(Generalized Hidden Markov Model,GHMM),通过对不同物种中poly(A)信号模式的研究,本文实现了高精度、面向多物种的多聚腺苷化位点识别工具——PASS2.0。相比同样基于GHMM的PASS1.0等算法工具,PASS2.0不仅提高了在拟南芥和水稻物种上的识别精度,还提出了针对不同物种的参数估计方法,提高了算法的适用性。 3.提出了通用的植物直系同源基因数据处理流程框架,搭建了植物直系同源基因数据平台PlantOrDB。框架基于模块化的设计思路,处理环节之间相互独立,方便用户根据需求自定义功能模块和更新处理算法、工具。本文提出的数据处理流程框架主要包括数据处理、在线分析和数据展示三部分。针对基因家族数据特点,设计实现了系统发生树与多序列比对结合展示的图形化控件。 4.基于系统发生树的思路,提出了一种直系同源基因识别算法。针对基因家族中直系同源基因识别困难以及系统发生树方法固有的人工干预问题,引入RBH(双向最优匹配)算法快速识别不同物种间的直系同源基因关系。针对最耗时的All-against-all BLAST环节,引入多核心并行处理,提高了算法速度。针对基于CAOS算法的在线处理流程,引入MAFFT7快速重建多序列比对,提高了在线处理算法的效率。 本文搭建的植物多聚腺苷化位点识别平台(PASPA)和植物直系同源基因数据平台(PlantOrDB)为相关的科研领域提供了丰富的数据资料和处理方法,满足了相关研究人员的研究需求。PASPA和PlantOrDB一方面提供了丰富的数据资源,另一方面集成了各种算法和处理工具。生物学家可以通过图形化交互界面提交数据并且调用算法工具处理,免去了在本地计算机安装编译软件的烦恼。PASPA和PlantOrDB高度的可视化界面和良好的交互性使得不具备计算机基础的生物学家也能够毫无障碍的运用计算机算法来处理数据和挖掘知识。综合来说,本文的工作能够让一线的生物学家们摆脱计算机水平和实验条件的限制,专注于他们感兴趣的信息去发掘知识。这一点是我认为本文工作最大的意义所在。