论文部分内容阅读
启动子的识别是基因识别的重要组成部分。对启动子区的认识,不仅有助于实验室分析研究,而且还可以为人类认识全基因组功能、基因表达调控机制以及人类疾病与启动子多态性或突变的关系提供很大的帮助。
本文旨在对人类RNA聚合酶(POL)II启动子数据进行识别分类并提高识别的准确率。我们将创新的编码方法应用在人类启动子序列编码中,建立并使用合适的共识模型,使用支持向量机(SVM)的方法对启动子数据进行分类并提高了启动子识别的准确率。
首先,我们从真核生物启动子数据库(EPD)以及非启动子数据库中得到用于分类研究的DNA启动子序列数据及非启动子序列数据。正、负数据集均分别被分成5份和10份,用于5重(5-fold)及10重(10-fold)交叉验证。另外,我们还从转录起始位点数据库(DBTSS)中得到了由实验得出的人类染色体启动子数据,准备用于后续的研究。
然后,在对数据进行处理后(包括保证数据的非冗余性等),对碱基数据进行编码、选择合适的参数及编码方法。这是本研究的重点和难点。根据采用编码方式的不同,将之分为三步。
第一步,本文采用了基于知识的统计编码方法,并将此方法进一步扩展成六种子编码方式,分别是:单碱基统计特征编码、相邻双碱基统计特征编码、隔一位的双碱基统计特征编码、隔两位的双碱基统计特征编码、隔三位的双碱基统计特征编码以及相邻三碱基统计特征编码。编码后在SVM中进行启动子识别,使用10-fold交叉验证的准确率达到了89.68%,灵敏性在86.24%~90.11%,特异性在85.91%~98.35%,与其他利用SVM进行启动子识别的工具相比,均有5%左右的提高。
第二步,本文采用了CpG编码和五联体(Pentamers)编码,从不同的角度对人类RNA POL II启动子序列进行编码,提取变量信息,找出预报结果最佳及搭配最合理的编码方式用于后面的研究。
第三步,本文还尝试了一种新的编码方法——模式字典(Pattem Dictionary)的编码方法(由本实验室开发),并且针对启动子数据的特点,将ATCG四碱基两两结合,扩展成十六种字符进行编码,以增加数据的特征变量。
再次,基于上述编码方法的识别结果,根据编码方式的不同、样本选择的不同、核函数选择的不同等等,我们建立出不同类型成员子模型的共识模型,并用双层SVM进行识别分析。由于共识模型考虑了各子模型的独立性和模型之间的差异性,发挥了各模型之间的互补优势,从而提高了最终的识别准确率。
最后,我们将优秀的识别模型及共识模型的思想应用到人类22号染色体启动子数据的识别中,识别准确率达到了90.98%。