基于机器学习的miRNA靶基因预测

来源 :湘潭大学 | 被引量 : 0次 | 上传用户:wangyifan_18
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着RNA干扰机制(RNAi)的发现,非编码RNA在基因表达和调控方面的功能受到了前所未有的关注,而miRNA因其与生物体的多项调控功能有着密切联系而成为关注重点。miRNA主要通过与其靶基因相互作用进而调控基因的表达,因此对miRNA靶基因的研究有助于我们理解miRNA的调控机制,是研究miRNA调控功能的关键步骤。现有的鉴定miRNA靶基因的实验技术价格昂贵,对实验的设备、环境以及操作人员的技术水平要求高,不适合对miRNA靶基因展开大批量、高置信度的鉴定实验。因此,在研发新的miRNA靶基因鉴定实验技术的同时,研究者正积极探索使用生物信息学的方法预测miRNA靶基因。目前已有的miRNA靶基因预测方法分为基于序列的方法和基于机器学习的方法。基于序列的方法在miRNA靶基因实验数据少,对miRNA的靶基因识别机制尚不了解的情况下非常适用。然而,随着miRNA靶基因实验数据的极速增长,基于序列的方法很难从庞大的数据中挖掘有效信息,且不能有效模拟复杂的miRNA作用机制,因此目前对miRNA靶基因的预测主要集中在基于机器学习的方法上。到目前为止,很多专家和学者提出了多种基于机器学习的miRNA靶基因预测方法,虽然这些方法在miRNA靶基因预测中都取得了一定成果,但普遍存在训练样本集不够完善、特征提取具有偏向性的问题。此外,靶基因特征的优化选择过程及分类器的使用都相对比较简单。针对以上问题,本文提出了新的基于机器学习的miRNA靶基因预测方法:首先对训练样本集的选取方法做出改进,引入mirWIP方法中构建训练样本集的方法,结合蛋白质免疫沉淀反应得到线虫中的miRNA靶基因作为本文实验数据集;其次,在选用具有代表性的miRNA靶基因特征的同时,设计提取了三核苷酸使用频率、三联体和部分位点可接近性三类新特征;再次,使用遗传算法对特征进行选择与优化,在保证预测精度的同时降低特征的维数;最后,分别使用k-最近邻法、支持向量机、神经网络三种分类器在不同实验数据集下对miRNA靶基因进行预测。实验结果表明,在不同实验数据集下,本文算法均获得了较高的预测精度。与此同时,为了进一步验证本文算法的有效性,我们使用独立测试集进行对比实验。实验结果表明,本文算法均优于经典的线虫miRNA靶基因预测方法。
其他文献
3G、4G使移动通信网络的发展充满了活力,移动互联网和物联网作为移动通信的两大驱动力对设备接入密度和移动数据流量提出了更高的要求,未来5G通信网络的发展趋势是采用高密度
合成孔径雷达(Synthetic Aperture Radar,简称SAR)通过将较小尺寸的真实天线孔径合成为一个较大的等效天线孔径,从而获得较高的方位分辨率。由于SAR是相干成像系统,载机的非理想
与电脑相比,流媒体客户端体积小、处理能力有限,并且处于无线环境中。所以如何实现流媒体的流畅播放,提高客户端的处理能力,是流媒体系统的关键问题。本文是基于BREW平台上实现了
无线传感器网络(WSN: W ireless Sensor Networks)是一种用于信息采集与数据处理的新兴网络,因其巨大的应用前景引起了国内外诸多研究者的兴趣。它由众多具有感知、数据处理和通
专网PVC网络需要通过人工配置来建立。如果配置好的网络结构随着业务流量的改变而变化,导致网络配置参数与服务需求不匹配,就需对整个网络参数进行重新配置,这样必然耗费大量
在矿山安全生产中,提升机作为联系矿井井下和地面沟通的工作机械,是必不可少的。本课题基于数字相位激光测距技术和数字信号处理技术,研究并设计矿井提升容器激光定位系统中的数
随着人们对互联网的依赖性越来越高,信息安全和隐私保护的重要性也不断显现。数字签名是目前存在的一种重要的信息安全技术,在身份认证、数据完整性检验和抗不可否认性等方面得
随着电信行业和互联网行业的高速发展,人们对带宽的需求越来越大。为了能充分利用已经深入中国千家万户的电话网络,节省重新布设网络造成的巨额成本,数字用户环路(DSL)宽带接入经
螺旋锥束CT不仅具有快速的数据采集速度、更高的射线利用率、均匀的轴向分布,而且能够解决长物体的检测问题,使得其在医学和工业无损检测领域都得到越来越广泛的应用,但是螺旋CT
身份认证技术一直是人们关注的焦点与热点,尽管现在出现了许多比较安全的生物特征信息身份认证的可实用技术,但是由于一些主观和客观因素的影响,作为一种独特的认证方式-密码码