miRNA与疾病关系中分类预测方法研究

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:xiaoc009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:由于miRNA的复杂性,只在调控时袁征出来,因此对于miRNA的识别工作难度很大。事实上,在miRNA分类问题中,有多种分类方法,如支持向量机、马尔科夫链模型、非负矩阵分解、KNN算法等,该文对前期研究报告中用到的分类方法做比较,找出各类方法的特点及使用环境,为后续研究做准备。
  关键词:miRNA;支持向量机;马尔科夫链模型;非负矩阵分解;KNN算法
  miRNA是真核生物中的一组内源性非编码序列RNA分子,个体很小,只有不到24m,因为难被发现,所以也被称为真核生物体内的“暗物质”。但它能在细胞发育、生物细胞的凋亡与增殖,器官形成过程中起重要作用,具备调控功能。因此,miRNA的研究对疾病防治以及生物进化等都具有重要意义。也因此有越来越多的生物学家对miRNA在各种疾病的诊断和治疗等方面的应用寄予了极高的期望。对于miRNA的识别主要有两个阶段:寻找有效的特征选择方法一寻找分类效率高的分类器。以下就对目前研究识别工作的分类器进行一一比较。
  1支持向量机(SVM)方法
  发现miRNA的方法主要有计算预测和eDNA克隆测序两种,支持向量机(SVM)法已经被广泛应用在miRNA预测中,通过合理的特征提取与编码,SVM分类器可以达到较高的分类精度,但以往的模型通过单物种的miRNA序列或前体序列建立模型,在对其他物种的预测中分类精度往往会有所降低,并且没有形成一套从前体结构预测到成熟miRNA预测的完整流程。2012年孙超等人基于支持向量机分类算法的番茄miRNA预测,利用SVM方法构建sly_pre_SVM模型和sly_SVM模型,并以已发现的miRNA特征为基础,预测番茄前体miRNA序列和成熟miRNA序列。研究miRNA特征向量的编码、miRNA特征选择和参数的优化。从测试集的分类精度、敏感性和特異性上看,分别达到99.69%、100%和99.66%。
  另外,马静等人基于数据不平衡的方法预测miRNA,文中提出了综合SVM-RFE和RelieW两种特征的选择方法,在每次迭代过程中,参照特征的评价标准,利用ReliefF算法计算的特征权重值,同时,利用SVM-RFE算法删除冗余特征,并对特征子集的样本集合使用K折交叉验证方法,最终从准确率最高的集合中选择最优特征子集。
  2隐马尔科夫链(HMM)模型
  高松等人研究指出,传统的HMM方法最大的优点是有可靠的概率统计理论,但也存在缺陷,如一阶HMM无法表示远距离的依赖关系,从而忽略了部分有用的统计特征。因此,他们提出采用高阶HMM方法,并对方法做出改进,提出“前向一后向”算法和Baum-Weleh訓练算法使得模型更易于理解和实现。
  刘丽云等人研究针HMM,指出高阶马尔科夫链模型存在维数多和存储量大的缺点,并提出可变长的马尔科夫链模型,用于预测可趋近交互位点的算法。该算法通过比对原miRNA和可趋近性的miRNA位点,从而形成具有二聚体的新序列。新序列中对不同的碱基配采用不同的符号,以代表不同类型。再用可变长HMM模拟新序列,并在概率后缀树上加入平滑化技术改进模型。通过比较正、负分类上新序列概率的大小判断新序列所属类别。
  Wei Shen等人提出基于二级结构模式的固定阶马尔可夫模型方法对mieroRNA进行预测,建立了一个阀杆凸出间隙符号描述发夹的二级结构,成功地从发夹序列直接实现了成熟miRNAs的全功能识别。
  3非负矩阵分解算法
  2013年尤燕玲等人利用非负矩阵分解算法和粒子群优化算法对miRNA与基因的互作关系展开了深入的探索。他们的研究得出了50对新的miRNA与基因互作关系对,并对这50个关系对的生物学意义做部分阐述。具体做法是:在给定的基因与基因互作数据,及已知的miRNA与基因互作关系上,同时用收敛图检测算法的收敛有效性;同时,考虑到非负矩阵分解算法在对miRNA与基因整合时,并没有注意到基因与miRNA互作关系的生物学统计意义。因此,引入粒子群优化算法,对非负矩阵分解算法中的目标函数参数值进行优化,并以miRNA与基因数据矩阵的皮尔森系数值作适应值。
  4混合分类器
  2016年梅端等人提出一种改进的SVM算法对miRNA表达谱的分析,文章提出了一种新的数据挖掘算法——SVM-KNN.该算法的思想是:首先采用统计量法对该数据集进行特征初选,其次将融合了支持向量机和k-最近邻判别法思想的SVM-KNN算法作为分类器,最后输出分类结果,SVM-KNN分类器的分类效果,比分另4单独运行SVM-KNN分类器和SVM-KNN分类器的分类效果都要好㈣。
  5小结
  miRNA的研究仍有许多问题需要解决,目前所采用的支持向量机、马尔科夫链模型、非负矩阵分解、KNN算法等热点分类方法,在识别过程中起着重要作用,但仍然有很多不足,如数据的单一值特征选取,生物数据库的基因组、代谢基因组、蛋白质组数据多特征分类,还有很大的研究空间。
其他文献
<正>~~
期刊
【摘 要】在媒体融合发展的大背景下,各种融媒体产品应运而生,它们不仅满足了用户个性化、多元化的需求,而且改进了传统的新闻报道形式。创新是融媒体产品与生俱来的标签,如何加强融媒体产品内容和形式的创新,达到“刷屏”的传播效果,成为主流媒体追求的目标。本文从实践出发,提出了融媒体产品内容创新的着力点和形式创新的切入口。  【关键词】融媒体产品; 内容创新;形式创新;媒体融合  随着媒体融合发展的深入及
随着新课改的进行,"以学生为主体""自主合作探究"的教学理念被广大教育工作者广泛接受并实践,"导学案"教学法应运而生,随着新课改的不断推进,教师的教学观念发生了转变,课堂
【摘 要】智媒时代,人工智能、大数据以及移动互联等技术引发新闻业的重构,甚至会颠覆内容生产编辑流程。在编辑出版领域中,编辑权利也面临着挑战,不同程度出现了编辑权利让渡,因此,明确和坚守编辑权利尤为重要。编辑必须正视这一现象,适应工作变革趋势,明确编辑权利,规范编辑主体行为,在新的媒介技术环境下挖掘自身价值,坚守编辑权利。  【关键词】编辑权利;人工智能;算法;权利让渡  【基金项目】2020年广
目的:运用RNAi技术下调平衡型核苷转运蛋白1(hENT1)的表达,观察hENT1下调后5.氟尿嘧啶(5-Fu)对胰腺癌Panc-1细胞的毒性改变情况。方法:设计并合成能表达特异性针对hENT1的shRNA(small
华为是全球最大的专利持有企业之一,2019年华为的研发费用达1317亿元,占全年销售收入15.3%,近十年投入研发费用总计超过6000亿元。研发方面的大量投入使得华为在5G等领域的技
摘要:选取Lorenz系统,对其加入控制项,即将延迟反馈项施加到第一項,采用单一反馈信号对系统实施延迟反馈控制。进行数值仿真,通过simulink数值仿真模拟方法来验证上面提出的控制和同步方法的有效性。最后在仿真實验中观察延迟时间和耦合强度对控制结果的影响。基于simulink仿真方法构建出超吕系统的驱动系统与响应系统的动态同步模型。  关键词:Lorenz系统;数值仿真;模型;延迟反馈控制
<正>为纪念朱光潜、宗白华诞辰120周年,振兴21世纪中华美学,2017年10月28—29日,由中华美学学会、北京大学美学与美育研究中心、安徽大学哲学系联合主办,安徽大学哲学系承办
工业建筑的安全运行与其建筑给水系统设计、消防设计息息相关,必须积极做好工业建筑消防给水、建筑给水设计才能够有效提升工业生产的安全性与可靠性,本文就工业建筑消防给水
通过字形分析和文献考证,我们认为安徽枞阳县地名中的""字,应为古文字中"危"字异体的讹变楷化字形。地名用字中类似的生僻字还有不少,以往采用音同音近的常用字来改换生僻地