基于多信息融合与多标签集成分类器预测蛋白质亚核与ncRNA亚细胞定位

来源 :内蒙古大学 | 被引量 : 5次 | 上传用户:anjo888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质和非编码RNA在细胞中的分布对于理解生物大分子相互作用和功能以及药物研发等都具有重要作用,而通过实验来确定二者在细胞中的位置费时费力,急需有效的分类系统来进行预测。本文从建立数据集、特征表达、特征筛选、分类算法、检验方法、评价指标、实例研究和结果分析等方面详细讨论了蛋白质与非编码RNA亚细胞定位的预测。  首先建立了真核生物蛋白质的亚核定位数据集与古核生物蛋白质的亚细胞定位数据集,并提取蛋白质的四类特征信息:序列信息、进化信息、GO注释和蛋白质翻译后修饰。其中序列信息指的是分段氨基酸组分和基于二项分布进行了筛选的三肽组分;进化信息即过滤后的序列谱是根据位置特异性打分矩阵,计算出蛋白质序列的保守位点的序列谱;基因本体论则用一条序列的同源序列的GO注释来表达该条序列,然后基于Shannon信息对GO进行了筛选,最后转化为逻辑向量;而翻译后修饰则是考虑蛋白质序列的磷酸化丝氨酸、磷酸化苏氨酸、磷酸化络氨酸、乙酰化和甲基化位点的数目。然后把四类特征分别输入由KNN和SVM构成的二分类器系统,采用投票法来决定蛋白质在细胞中的一个或多个位置,最后用留一法进行检验,取得了较好的预测结果。  对于非编码RNA,本文则是第一次从理论上对其亚细胞定位进行研究,首先构建了一个ncRNA亚细胞定位数据集,然后综合三种k-mer组分信息,利用SVM和KNN构成的集成分类器对ncRNA的亚细胞定位进行预测,得到了86.75%的预测成功率。  文章最后总结了以上三个工作,并对蛋白质和非编码RNA亚细胞定位的预测提出了一些进一步的设想。
其他文献
当今社会是一个信息化的社会,信息技术教学也已经广泛地运用到小学的信息教学工作中,本人一直探索适合小学生的信息技术学科教学方法的改革,本文从教书育人开始,根据信息技术
夸克和胶子被认为是基本粒子,它们之间的相互作用可以用量子色动力学(QCD)进行描述,即:在普通的核物质相中这些夸克和胶子被禁闭在核子内,从核物质内提取出自由的夸克是不可能的
新的课程改革需要在教学过程中采用多种多样的教学方法和教学手段.多媒体凭借其自身的优势在众多教学手段中脱颖而出.数学的学习需要学生具有较强的抽象思维能力,而小学生主
实施素质教育,课堂教学是主渠道,抓住课堂教学这个中心环节,结合素质教育的精神实质,开展优化物理教学的研究,是有效地推进素质教育在物理教学中得以实施的关键.本文结合课堂
随着油画在中国不断地向前发展,不管是从形式上还是内容上,都已经和传统上具有了区别。近现代的绘画形式主要是采用表现的手法。而在我的认识中,我认为,油画能以保持长久不衰
由于半导体激光器具有直接调制特性,使其成为光通信领域的重要器件。激光器的响应特性决定了光通信系统的优劣,因此对激光器的工作特性进行模拟研究,分析出影响激光器调制特性的
随着能源危机和环境污染问题的日益突出,寻找绿色、可再生的新能源替代化石能源日益迫切。氢能源作为一种清洁可循环的能源吸引了人们的关注,而利用半导体材料作为光电极来光电
基于大气散射的物理模型,针对雾霾的厚薄分布状况,给出了一种有选择性的雾霾去除新策略。在深入分析相关研究的基础上,新方法主要进行了两方面的改进,首先增加了抠图能量函数
本文主要研究MODIS数据中云的处理及对地表温度反演。由于气候的原因,大多时候获取的MODIS遥感数据都受到云噪声的干扰,云覆盖的存在不仅给图像的后续处理和识别带来了很多困
创新教育的目标是培养学生的创新意识、创新精神和创新能力等综合素质,使学生成为时代发展所需要的创新型人才。实施创新教育,学校是主战场,课堂是主渠道,教师是主导,学生是