蛋白质、RNA修饰位点预测的机器学习方法及应用研究

来源 :青岛科技大学 | 被引量 : 1次 | 上传用户:t573249005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据的到来,使得生物数据库中的序列数量呈指数型增加。从序列出发,分析蕴含在数据中的规律,已成为生物信息学的研究热点。蛋白质、RNA修饰与许多生命过程密切相关,并且在病理学方面发挥十分重要的作用。传统识别修饰位点的实验方法具有成本高、耗时耗力等缺点,机器学习方法能够准确高效的预测蛋白质、RNA修饰位点,推动蛋白质组学和基因组学的发展,促进对疾病发生机理的了解。本文对蛋白质及RNA修饰位点使用机器学习方法进行相关研究,主要内容如下:1.提出DNNAce的蛋白质乙酰化位点预测新方法。首先,融合二元编码、伪氨基酸组成、AAindex、NMBroto、分组重量编码、多元互信息、BLOSUM62、KNN对应的特征向量,得到初始特征搜索空间。其次,首次运用Group Lasso去除对乙酰化位点分类无关的特征,筛选出有效特征构成最优子集,降低特征空间维度。最后,利用深度神经网络对9个原核生物的乙酰化位点进行预测,运用10折交叉验证得到评价指标并和其它预测方法进行比较。结果表明,本文提出的DNNAce方法能进一步提高现有研究成果的预测精度,可为其它的蛋白质翻译后修饰位点预测提供一种新方法。2.提出StackRAM的RNA N~6-甲基腺苷位点预测新方法。首先,通过二进制编码、核苷酸化学性质、累积核苷酸频率、K-mer核苷酸频率、伪二核苷酸组成和位置特异性三核苷酸倾向等特征编码方式提取RNA序列特征,通过多信息融合得到原始特征集合。其次,首次利用弹性网剔除m~6A位点识别的冗余及噪声信息,保留对模型分类的重要特征,得到最优特征子集。最后,将基分类器LightGBM和支持向量机关于最优特征子集的概率得分和最优特征子集进行组合,输入到第二阶段的元分类器支持向量机中。StackRAM关于独立测试集H.sapiens和A.thaliana的预测准确率分别达到92.30%和87.06%。结果表明,本文提出StackRAM方法在m~6A位点识别方面有更强的竞争力,在跨物种预测方面具有很好的发展潜力,可成为鉴定m~6A位点的有用工具。
其他文献
高空核电磁脉冲、高功率微波等强电磁脉冲武器的应用将严重威胁车辆的机动性与安全性。发动机系统是保障车辆动力性的核心,电磁脉冲可通过线缆传导方式有效作用于发动机内部
随着我国教育信息化进程的发展和深入,各地信息技术与课堂融合的程度和范围日益加深和扩大,越来越多的信息化教学产品走进中小学课堂,成为广大师生在教学过程中不可缺少的工
近年来,随着互联网及多媒体技术的飞速发展,图像数据呈爆炸式增长,如何在海量图像中搜索到目标图像引起越来越多专家学者的关注。作为基于内容的图像检索(CBIR)中最关键的一
人们常常在生产生活中遇到大量的优化问题,国内外广大学者已经对这些优化问题进行了全面的研究,并将其发展成为了一门不可或缺的学科门类。解决优化问题的传统方法主要包括最
锥束CT因其辐射剂量低,成像空间分辨率高,扫描时间短,被广泛应用于临床科室。Feldkamp-Davis-Kress(FDK)算法是其常用的重建算法,受到机械加工精度以及人工安装水平的影响,有
作为一种经典的过程质量诊断工具,控制图被广泛应用于现代工业生产中。控制图被用以检测生产过程的稳定性,控制图中点子的变化反映出生产过程中的质量波动情况,对质量控制图模式快速有效的识别,有助于及时发现生产过程中存在的异常因素。本文首先应用蒙特卡洛方法生成仿真数据,仿真数据用于训练和测试模型。然后,采用基于距离的可分性判据原理对两种特征:原始特征和基于主成分分析(Principal Component
随着城市化进程的加速,餐厨垃圾和污泥的年产量以超过10%的速度递增,甲烷发酵是餐厨垃圾和污泥处置和能源化的主要措施,但是,单一基质发酵存在C/N失衡、微量元素缺失、毒性物
纳米结构ODS钢中弥散分布着极高密度的纳米尺寸析出相,同时具有亚微米级的晶粒尺寸和高密度的位错,这些微观结构特征使ODS钢具有优异的抗辐照性能和高温力学性能,被认为是聚
空间低温制冷技术的研究与应用是当前国防事业发展倍受关注的话题,由此领域衍变出的隐身技术的研究也是当前空间技术发展中很重要的部分。制冷剂通过空间的相变制冷,使冷屏表
随着信息多媒体技术的不断发展,高清晰度视频的应用逐步普及,社交媒体上大量的视频数据使得高效的压缩编码技术愈发重要。针对这一需求,视频编码联合小组JCT-VC于2013年开发