MicroRNA预测分类及其特性研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:sky_ywt_2001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
MicroRNA (miRNA)是一种非编码RNA,长度约为22个核苷酸,研究证实miRNA在基因表达中其重要的调控作用。对miRNA进行研究有助于人们了解基因功能,疾病关系以及生物进化规律。近年来,miRNA研究已经成为生物信息学领域重要课题之一,本文研究了miRNA有关了几个热点问题:miRNA预测及其家族预测分类,主要完成的工作为:(1)本文介绍了miRNA相关知识和当前挖掘方法。生物信息学中miRNA的研究大都利用了其生物特性,例如,miRNA序列的保守性,pre-miRNA的发夹结构等在miRNA挖掘及其靶基因挖掘算法中都被作为重要的信息特征;miRNA的成簇分布现象在家族研究中给予研究者以参考。因此本文分析了miRNA的主要生物特性,然后进一步研究了不同物种的特性差异,以供生物信息研究人员参考。利用miRNA生物特性进行挖掘预测是当前的热点问题之一,我们对比分析了当前主要的miRNA从头预测挖掘算法,供研究者根据需要选择合适算法。(2)提出了一种分层的miRNA家族预测方法-miRClassify,由于miRNA家族成员分布的不平衡性,多成员大家族和少成员小家族数量差距很大,利用这种分布的特点,本文提出了一种分层级联的分类方法,以有效准确的预测miRNA所属家族。miRClassify在机器学习过程中的特征提取,特征选择,分类算法等多个角度对比分析,证实了miRClassify所采用的每一步方法的优越性。此外,本文提供了基于该方法的在线使用网站和软件,以便与研究使用。(3)提出处理不平衡数据分布的分类方法-imDC,生物信息学中的数据普遍存在样本不平衡现象,这在其他领域也是比较常见的。为了提高少数类的识别精度,重视少数类的影响,本文提出算法imDC。imDC利用集成学习思想,将少数类样本和多数类样本以权重,组合的方式重组集成,消除不平衡性,并且使用不同的分类器训练,将多个弱分类器集成组合成为一个强分类器。本文使用几组UCI数据和一组miRNA数据对比其他算法来证明方法的优越性。
其他文献
生物医学文献数量的急剧增加,使得生物医学从业者在海量生物医学文献中快速地获取大量的感兴趣的信息变得困难。因此,快速有效地从海量无结构化的文本中抽取出便于管理、查询
MicroRNA (miRNA)是一种非编码的RNA序列,这些长度约为21个碱基的序列在动物、植物、病毒基因的后转录过程中发挥着巨大的作用。MiRNA可以靶向到它们对应的靶基因,抑制某些基
信息时代,高速发展的计算机技术使许多有价值的信息被保存起来,但是如何将这些隐含信息有效地挖掘出来加以利用是我们不断研究的方向。关联分类作为数据挖掘中一种分类精度高,适
随着我国经济的发展,城镇人口增多,步行交通量随之增大,但很多交叉口的信号配时控制并不完善,不能合理地同时满足机动车和行人的通行效率,导致交叉口交通秩序混乱、安全隐患增加,严
在经济全球化的浪潮推动下,企业之间的业务协作逐渐频繁和复杂。作为对企业运转和管理来说必不可少的支撑系统,各个企业的应用软件之间也必须能够互通互联,以支持企业之间的
随着高科技的引入和全球化的发展,我国高等教育实现了不断跳跃的大发展,已挤身于教育大国的我们正往教育强国的目标努力。但高等教育发展时间较短、准备不充分的特点使其落后
近年来,随着研究生教育规模的不断扩大,申请学位的人数和类型不断增加,每年毕业的研究生数量不断增长,学位管理面临的压力越来越大。面对众多的毕业生,如何高效合理地完成复
由于支持向量机在处理高维小样本数据时的识别精度显著优于传统机器学习方法,因此支持向量机的多分类编码方法与应用研究是近年来多分类研究的热点。但是由于采用SVM进行多分
在开放的互联网时代,与个人信息相关的数据-微数据在网络上以指数级形式急剧增长,这些数据共享和发布可被用于进行海量数据分析,随着数据挖掘技术的日益发展及广泛应用,这些
BWDSP是一款高性能数字信号处理器,采用超长指令字(Vety LongInstruction Word, VILW)和单指令多数据流(Single Instruction Multiple Data, SIMD)体系结构。较通用处理器而