论文部分内容阅读
在功能基因组学中,理解高等生物的调控机制是当前研究面临的重要挑战。转录因子是一种特殊蛋白质,通过与基因上游的顺式调控元件结合,最终调控了基因的表达。因此,识别转录因子以及顺式调控元件,是理解基因表达的先决条件。传统的采用实验生物学手段来识别转录调控序列(主要有转录因子、顺式调控元件)的方法代价较高,因此,研究者开始采用计算生物学手段预测转录调控序列,然后针对预测结果再进行生物学实验,以提高识别的效率。然而现有的方法存在一些问题,针对这些问题提出新的方法以改进预测效果是当前研究的热点。本文分析了当前转录调控序列预测算法的现状,针对现有算法的不足,研究转录调控序列的生物学特点,结合转录调控领域知识,提出了新的转录因子及顺式调控元件的数据挖掘算法,设计并实现了转录调控序列数据挖掘系统TBMiner。主要研究成果如下:1.提出了一个基于支持向量机的转录因子数据挖掘算法,该算法将蛋白质功能域作为向量来表示转录因子,利用支持向量机对由转录因子和非转录因子样本构成的正负样本集进行训练得到分类模型,该模型用来预测蛋白序列是否为转录因子并判断其所属类别,改善了当前算法存在的推广能力不足的问题。2.提出了一个采用多项式核函数的半监督支持向量机顺式调控元件预测算法。传统的顺式调控元件预测方法只考虑单碱基的频率,而实际上顺式调控元件的碱基间往往存在着复杂的联系。本文利用多项式核函数获取顺式调控元件上碱基间的依赖关系,从而更好的学习到顺式调控元件的特征,这些特征显著地改善了顺式调控元件的预测效果。同时核函数避免了显式的空间变换,大大提高了计算效率。3.设计和实现了转录调控序列数据挖掘系统TBMiner。TBMiner系统整合了当前常用的生物序列模式发现算法MEME和AlignACE,并实现了上述的转录因子及顺式调控元件的预测算法。用户可以调整不同的参数以获得最佳的效果,为生物学家进行转录调控规律研究提供了良好的生物信息学工具。