miRNA与疾病关系中分类预测方法研究

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户：xiaoc009

【摘要】

：

【作者】

：

孙华　张燕　施伟

【出处】

：

电脑知识与技术

【发表日期】

：

2017年12期

【关键词】

：

MIRNA 支持向量机马尔科夫链模型非负矩阵分解 KNN算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　摘要：由于miRNA的复杂性，只在调控时袁征出来，因此对于miRNA的识别工作难度很大。事实上，在miRNA分类问题中，有多种分类方法，如支持向量机、马尔科夫链模型、非负矩阵分解、KNN算法等，该文对前期研究报告中用到的分类方法做比较，找出各类方法的特点及使用环境，为后续研究做准备。
　　关键词：miRNA；支持向量机；马尔科夫链模型；非负矩阵分解；KNN算法
　　miRNA是真核生物中的一组内源性非编码序列RNA分子，个体很小，只有不到24m，因为难被发现，所以也被称为真核生物体内的“暗物质”。但它能在细胞发育、生物细胞的凋亡与增殖，器官形成过程中起重要作用，具备调控功能。因此，miRNA的研究对疾病防治以及生物进化等都具有重要意义。也因此有越来越多的生物学家对miRNA在各种疾病的诊断和治疗等方面的应用寄予了极高的期望。对于miRNA的识别主要有两个阶段：寻找有效的特征选择方法一寻找分类效率高的分类器。以下就对目前研究识别工作的分类器进行一一比较。
　　1支持向量机（SVM）方法
　　发现miRNA的方法主要有计算预测和eDNA克隆测序两种，支持向量机（SVM）法已经被广泛应用在miRNA预测中，通过合理的特征提取与编码，SVM分类器可以达到较高的分类精度，但以往的模型通过单物种的miRNA序列或前体序列建立模型，在对其他物种的预测中分类精度往往会有所降低，并且没有形成一套从前体结构预测到成熟miRNA预测的完整流程。2012年孙超等人基于支持向量机分类算法的番茄miRNA预测，利用SVM方法构建sly_pre_SVM模型和sly_SVM模型，并以已发现的miRNA特征为基础，预测番茄前体miRNA序列和成熟miRNA序列。研究miRNA特征向量的编码、miRNA特征选择和参数的优化。从测试集的分类精度、敏感性和特異性上看，分别达到99.69%、100%和99.66%。
　　另外，马静等人基于数据不平衡的方法预测miRNA，文中提出了综合SVM-RFE和RelieW两种特征的选择方法，在每次迭代过程中，参照特征的评价标准，利用ReliefF算法计算的特征权重值，同时，利用SVM-RFE算法删除冗余特征，并对特征子集的样本集合使用K折交叉验证方法，最终从准确率最高的集合中选择最优特征子集。
　　2隐马尔科夫链（HMM）模型
　　高松等人研究指出，传统的HMM方法最大的优点是有可靠的概率统计理论，但也存在缺陷，如一阶HMM无法表示远距离的依赖关系，从而忽略了部分有用的统计特征。因此，他们提出采用高阶HMM方法，并对方法做出改进，提出“前向一后向”算法和Baum-Weleh訓练算法使得模型更易于理解和实现。
　　刘丽云等人研究针HMM，指出高阶马尔科夫链模型存在维数多和存储量大的缺点，并提出可变长的马尔科夫链模型，用于预测可趋近交互位点的算法。该算法通过比对原miRNA和可趋近性的miRNA位点，从而形成具有二聚体的新序列。新序列中对不同的碱基配采用不同的符号，以代表不同类型。再用可变长HMM模拟新序列，并在概率后缀树上加入平滑化技术改进模型。通过比较正、负分类上新序列概率的大小判断新序列所属类别。
　　Wei Shen等人提出基于二级结构模式的固定阶马尔可夫模型方法对mieroRNA进行预测，建立了一个阀杆凸出间隙符号描述发夹的二级结构，成功地从发夹序列直接实现了成熟miRNAs的全功能识别。
　　3非负矩阵分解算法
　　2013年尤燕玲等人利用非负矩阵分解算法和粒子群优化算法对miRNA与基因的互作关系展开了深入的探索。他们的研究得出了50对新的miRNA与基因互作关系对，并对这50个关系对的生物学意义做部分阐述。具体做法是：在给定的基因与基因互作数据，及已知的miRNA与基因互作关系上，同时用收敛图检测算法的收敛有效性；同时，考虑到非负矩阵分解算法在对miRNA与基因整合时，并没有注意到基因与miRNA互作关系的生物学统计意义。因此，引入粒子群优化算法，对非负矩阵分解算法中的目标函数参数值进行优化，并以miRNA与基因数据矩阵的皮尔森系数值作适应值。
　　4混合分类器
　　2016年梅端等人提出一种改进的SVM算法对miRNA表达谱的分析，文章提出了一种新的数据挖掘算法——SVM-KNN.该算法的思想是：首先采用统计量法对该数据集进行特征初选，其次将融合了支持向量机和k-最近邻判别法思想的SVM-KNN算法作为分类器，最后输出分类结果，SVM-KNN分类器的分类效果，比分另4单独运行SVM-KNN分类器和SVM-KNN分类器的分类效果都要好㈣。
　　5小结
　　miRNA的研究仍有许多问题需要解决，目前所采用的支持向量机、马尔科夫链模型、非负矩阵分解、KNN算法等热点分类方法，在识别过程中起着重要作用，但仍然有很多不足，如数据的单一值特征选取，生物数据库的基因组、代谢基因组、蛋白质组数据多特征分类，还有很大的研究空间。

其他文献

2008年《中国药科大学学报》第39卷文题分类索引

<正>~~

期刊

浅谈融媒体产品内容和形式的创新

【摘要】在媒体融合发展的大背景下，各种融媒体产品应运而生，它们不仅满足了用户个性化、多元化的需求，而且改进了传统的新闻报道形式。创新是融媒体产品与生俱来的标签，如何加强融媒体产品内容和形式的创新，达到“刷屏”的传播效果，成为主流媒体追求的目标。本文从实践出发，提出了融媒体产品内容创新的着力点和形式创新的切入口。　　【关键词】融媒体产品; 内容创新;形式创新;媒体融合　　随着媒体融合发展的深入及

期刊

融媒体产品内容创新形式创新媒体融合

导学案在高中英语教学中的使用探索

随着新课改的进行,"以学生为主体""自主合作探究"的教学理念被广大教育工作者广泛接受并实践,"导学案"教学法应运而生,随着新课改的不断推进,教师的教学观念发生了转变,课堂

期刊

导学案高中英语教学探索

智媒时代编辑权利的让渡与坚守

【摘要】智媒时代，人工智能、大数据以及移动互联等技术引发新闻业的重构，甚至会颠覆内容生产编辑流程。在编辑出版领域中，编辑权利也面临着挑战，不同程度出现了编辑权利让渡，因此，明确和坚守编辑权利尤为重要。编辑必须正视这一现象，适应工作变革趋势，明确编辑权利，规范编辑主体行为，在新的媒介技术环境下挖掘自身价值，坚守编辑权利。　　【关键词】编辑权利;人工智能;算法;权利让渡　　【基金项目】2020年广

期刊

编辑权利人工智能算法权利让渡

RNAi下调hENT1可增强5-氟尿嘧啶对胰腺癌细胞的毒性

目的：运用RNAi技术下调平衡型核苷转运蛋白1（hENT1）的表达，观察hENT1下调后5．氟尿嘧啶（5-Fu）对胰腺癌Panc-1细胞的毒性改变情况。方法：设计并合成能表达特异性针对hENT1的shRNA（small

期刊

胰腺癌核苷转运蛋白RNA干扰5-氟尿嘧啶细胞毒性pancreatic cancer nucleoside transporter RNA inte

华为的创新与挑战

华为是全球最大的专利持有企业之一,2019年华为的研发费用达1317亿元,占全年销售收入15.3%,近十年投入研发费用总计超过6000亿元。研发方面的大量投入使得华为在5G等领域的技

期刊

研发费用华为创新与挑战IT领域发言权竞争对手年销售收入

五模类Lorenz系统延迟反馈控制的模型建立

摘要：选取Lorenz系统，对其加入控制项，即将延迟反馈项施加到第一項，采用单一反馈信号对系统实施延迟反馈控制。进行数值仿真，通过simulink数值仿真模拟方法来验证上面提出的控制和同步方法的有效性。最后在仿真實验中观察延迟时间和耦合强度对控制结果的影响。基于simulink仿真方法构建出超吕系统的驱动系统与响应系统的动态同步模型。　　关键词：Lorenz系统；数值仿真；模型；延迟反馈控制

期刊

LORENZ系统数值仿真模型延迟反馈控制

“朱光潜、宗白华与二十一世纪中华美学——纪念朱光潜、宗白华诞辰120周年”国际学术研讨会综述

<正>为纪念朱光潜、宗白华诞辰120周年,振兴21世纪中华美学,2017年10月28—29日,由中华美学学会、北京大学美学与美育研究中心、安徽大学哲学系联合主办,安徽大学哲学系承办

期刊

朱光潜中华美学宗白华国际学术研讨会二十一世纪

工业建筑消防给水施工图设计审查问题探讨

工业建筑的安全运行与其建筑给水系统设计、消防设计息息相关,必须积极做好工业建筑消防给水、建筑给水设计才能够有效提升工业生产的安全性与可靠性,本文就工业建筑消防给水

期刊

工业建筑消防给水施工图设计审查问题

由生僻地名字的释读谈此类用字的规范路径与方法

通过字形分析和文献考证,我们认为安徽枞阳县地名中的""字,应为古文字中"危"字异体的讹变楷化字形。地名用字中类似的生僻字还有不少,以往采用音同音近的常用字来改换生僻地

期刊

地名用字汉字规范地名文化

miRNA与疾病关系中分类预测方法研究

与本文相关的学术论文