论文部分内容阅读
大数据的到来,使得生物数据库中的序列数量呈指数型增加。从序列出发,分析蕴含在数据中的规律,已成为生物信息学的研究热点。蛋白质、RNA修饰与许多生命过程密切相关,并且在病理学方面发挥十分重要的作用。传统识别修饰位点的实验方法具有成本高、耗时耗力等缺点,机器学习方法能够准确高效的预测蛋白质、RNA修饰位点,推动蛋白质组学和基因组学的发展,促进对疾病发生机理的了解。本文对蛋白质及RNA修饰位点使用机器学习方法进行相关研究,主要内容如下:1.提出DNNAce的蛋白质乙酰化位点预测新方法。首先,融合二元编码、伪氨基酸组成、AAindex、NMBroto、分组重量编码、多元互信息、BLOSUM62、KNN对应的特征向量,得到初始特征搜索空间。其次,首次运用Group Lasso去除对乙酰化位点分类无关的特征,筛选出有效特征构成最优子集,降低特征空间维度。最后,利用深度神经网络对9个原核生物的乙酰化位点进行预测,运用10折交叉验证得到评价指标并和其它预测方法进行比较。结果表明,本文提出的DNNAce方法能进一步提高现有研究成果的预测精度,可为其它的蛋白质翻译后修饰位点预测提供一种新方法。2.提出StackRAM的RNA N~6-甲基腺苷位点预测新方法。首先,通过二进制编码、核苷酸化学性质、累积核苷酸频率、K-mer核苷酸频率、伪二核苷酸组成和位置特异性三核苷酸倾向等特征编码方式提取RNA序列特征,通过多信息融合得到原始特征集合。其次,首次利用弹性网剔除m~6A位点识别的冗余及噪声信息,保留对模型分类的重要特征,得到最优特征子集。最后,将基分类器LightGBM和支持向量机关于最优特征子集的概率得分和最优特征子集进行组合,输入到第二阶段的元分类器支持向量机中。StackRAM关于独立测试集H.sapiens和A.thaliana的预测准确率分别达到92.30%和87.06%。结果表明,本文提出StackRAM方法在m~6A位点识别方面有更强的竞争力,在跨物种预测方面具有很好的发展潜力,可成为鉴定m~6A位点的有用工具。