基于RNA序列甲基化位点识别方法和应用的研究

来源 :江苏科技大学 | 被引量 : 0次 | 上传用户:sgaini1532
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
RNA甲基化修饰是指在RNA序列的不同位置产生转录后修饰的现象,目前已经被发现甲基化修饰达到150多种,其中最为常见的两种分别是5-甲基胞嘧啶(5-methylcytosine,m~5C)和6-甲基腺嘌呤(N~6-methyladenosine,m~6A)。上述两种常见的修饰位点不仅对酵母菌细胞的命运起到重要的作用,还对人类,动物的胚胎发育具有一定的调控作用。因此从RNA序列中精确识别m~5C位点和m~6A位点对于深入了解两种修饰位点的机制和功能十分有益。由于使用湿实验技术鉴别甲基化位点需要面临众多困难和昂贵的成本,因此迫切需要开发一种基于机器学习的,并能够快速准确预测甲基化位点的方法。在本文中,为了进一步提高甲基化位点预测模型的性能,主要做了以下工作:(1)设计一种基于核酸物化学属性冗余度度量的K重启发式约简(Heuristic Physical-Chemical Reduction,HPCR)算法,通过使用该约简算法获得K组物化属性约简子集来重新编码RNA样本,并结合支持向量机(Support vector machine,SVM)训练获得K个基分类器,然后通过使用分类器集成算法构建最终的甲基化位点预测器;最后,在两种基准数据集上分别采用Jackknife测试法进行验证。最终实验结果表明,基于该算法所构建的预测器优于目前最优的甲基化位点预测器。在m~6A数据集上,Mcc和AUC的预测精度分别达到了0.454和0.784。在m~5C数据集上,Mcc和AUC的预测精度分别达到了0.859和0.962。(2)设计基于统计方法的特征编码方法和分类器集成算法,通过使用该算法对RNA样本采用三种特征编码方式,并结合SVM训练获得三个基分类器,再通过使用分类器集成算法构建最终的甲基化位点预测器;最后,在两种基准数据集上分别采用Jackknife测试法进行验证。最终实验结果表明,基于该算法所构建的预测器优于目前最优的甲基化位点预测器。在m~6A数据集上,Mcc和AUC的预测精度分别达到了0.542和0.829。在m~5C数据集上,Mcc和AUC的预测精度分别达到了0.95和0.992。(3)为了便于其他研究人员的使用,本文还设计实现了甲基化位点在线预测网站。
其他文献
虾酱是我国沿海地区的传统食品,具有良好的风味特征和较高的营养价值,文章阐述了其生产过程中的品质变化和容易引起食品安全问题的不良因素,探讨了其控制手段和检测方法,以保证虾
中美贸易谈判目前有何进展,是全球最受关注最重要的新闻,没有之一。5月3日至4日,中美双方在北京就经贸问题举行磋商。中美双方就扩大美对华出口、双边服务贸易、双向投资、保
报纸
为了研究非接触界面耦合对超静卫星系统指向性能的影响,以弹簧阻尼单元代表非接触界面的耦合作用,并利用牛顿欧拉法建立了非接触作动超静卫星系统的刚柔耦合动力学方程。仿真
烟支滤嘴“泡皱”是当前各卷烟厂尚无法解决的问题。从卷烟质量检验的角度出发 ,分析了泡皱烟支的统计特征和规律 ,为研究泡皱烟支产生的机理和规律 ,从根本上解决滤嘴泡皱问
陶瓷膜也称GT膜,是固态膜的一种,最早由日本的大日本印刷公司和东洋油墨公司在1 996年开发引入市场.陶瓷膜主要是AL203、ZR02、TI02和SI02等无机材料制备的多孔膜,其孔径为2-
<正>延髓背角由投射神经元和中间神经元组成,是面口部痛信息传递和调控的主要部位。Calbindin D-28K(CB)、Calretinin(CR)和Parvalbumin(PV)是三种常见的钙结合蛋白,延髓背角
会议
"品牌社群"概念的提出标志着西方品牌关系理论研究取得重大转变。近年来,西方诸多学者对有关品牌社群的概念、特征及其对消费者的影响等多个方面进行了较为深入的探讨。西方有
"特色小镇"媒介意义的生成在于其"像化"形象视觉识别机制的建构。以"叙事""技艺""审美"的三维场域交融视角确立符合时代精神的实践策略,应突破单一技术主导式建构理念,凭借"
教育家乌申斯基认为,比较是理解和思维的基础. 实践也证明,善用比较策略能避免学生学习过程中的负迁移. 本文结合自己的实践经验,探讨如何将比较策略应用于小学数学.曹玉萍
本文介绍了日本植物新品种保护法律历次修订的内容,对其法律修订的背景及原因进行了深入分析;在此基础上总结了日本植物新品种保护制度变革的趋势,探讨了日本法律修订给中国植物