论文部分内容阅读
真核基因剪接位点预测方法的研究,无论对基因组大规模和高质量的计算注释,还是对剪接机制及其进化过程的分析理解,都具有十分重要的意义.
本文的第一部分(第一、二章)首先基于GenBank(第150.0版)构造了人类基因组成性剪接位点数据集HSSData;基于数据集HSSData,对当前常用的剪接位点预测方法GeneSplicer,DGSplicer,SpliceScan和SpliceMachine的预测精度进行了评测,并对它们进行结合使用的效果进行了评价.结果表明,对剪接位点附近序列提供的信息进行充分利用,是提高剪接位点预测精度的关键.
本文的第二部分(第三、四章)综合运用熵密度分布距离、权重数组、Kappa检验等方法,建立了描述剪接位点相关的剪接信号的模型;同时基于一种无监督自学习基序检测算法建立了剪接调节元件的统计模型,在此基础上设计了基于多层次支持向量机的剪接位点预测新方法,并对其预测结果进行了全面的评测和讨论.对人类基因组剪接位点数据的大规模测试结果表明,本文提出的预测方法能够有效地预测人类基因组中的剪接位点,预测精度不仅全面高于基于剪接信号的传统预测方法GeneSplicer,而且在总体预测精度上达到并大部分超过基于调节元件信号的预测方法SpliceScan.对于假阳性剪接位点含量较多的低GC含量的基因序列,本文方法的预测精度明显高于其他两种方法.这说明本文方法具有应用于实际序列分析的良好前景.特别地,本文的无监督自学习基序检测算法所检测出的调节元件,与实验确认的ESE/ISE调节元件保持了相当程度的一致性.
剪接位点预测工具链SSPred是对本文方法的实现.可从http://mech.ctb.pku.edu.cn/sspred/下载.