论文部分内容阅读
基因剪接是基因表达中的重要过程,可以影响蛋白质翻译的结果,从而对生命活动产生影响。剪接位点的识别在基因发现和确定基因结构方面发挥着重要作用,因此是生物信息学中一个重要的研究方向。与传统实验方法相比,计算机信息处理方法实验花费少、工作效率高,且便于实现。 通过文献学习,对现有的剪接位点识别算法进行了归纳和总结,对影响剪接位点识别精度的主要问题进行了分析,提出了从特征描述方法和识别算法两个方面进行改进的思路。本文从人类基因剪接位点预测的角度进行了方法研究和探讨,主要包括以下内容: ⑴从信息熵的原理出发计算基因剪接序列中每个位点的不确定性减少量,并将这种减少量定义为位点的信息量,然后用贝叶斯方法建立了人类基因剪接位点的预测模型。 ⑵由于剪接位点是位于外显子和内含子的交界处,考虑到外显子/内含子、内含子/外显子的内在关系,所以对另外一种更复杂和有效的有向图模型——隐马尔科夫模型进行了研究。 ⑶设计了一个用于人类基因剪接位点预测的支持向量机模型。该模型被用于对不同特征提取方法的预测效果进行评估。 ⑷研究了不同的特征提取方法对预测效果的影响。对原始特征、基于统计方法提取的特征、基于主成分分析方法提取的特征、基于信息量的特征和基于核主成分方法提取的特征分别进行了研究。基于人类剪接位点数据库的计算结果表明,采用信息量特征、基于主成分分析和核主成分分析的特征,能进一步提高人类基因剪接位点的预测精度。