数据挖掘在生物信息处理中的应用植物miRNAs的聚类与预测算法分析

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:a522920779a
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前核酸、蛋白质数据呈几何级数增长,如何从海量数据中获取有效信息成为生物信息学迫切需要解决的问题。数据挖掘技术就是从大量的数据中挖掘出有用的或者人们感兴趣的知识的一种方法。本论文运用数据挖掘中的聚类分析思想及关联规则,对植物 miRNAs 进行了聚类分析和预测。 生物信息学传统的聚类分析方法要求对待分析的序列进行预排列,同时引入空位和罚分,这使得聚类的好坏与比对算法直接相关,且不同的聚类方法对于不同的分析对象聚类效果也存在差异。因此,本论文首先分析了邻接法、最大似然法、最大简约法对于植物 miRNAs 的适应性。分析发现,最大似然法和最大简约法对植物 miRNAs 的聚类效果明显优于邻接法。随后,本论文提出了一种基于序列结构的聚类分析算法,该算法以序列结构的相似性作为聚类标准,不需要预排列,不但能正确地反映不同 miRNAs 之间的结构相关性,还能较好地反映成熟miRNAs 与其前体序列之间的结构一致性。在对已有的植物 miRNAs的统计分析基础上,通过对不同参数的对比分析,找到了一个可以用于区分miRNAs 的重要参数(MFEL),即序列的最小自由能与长度的比值。通过引入MFEL参数,本论文提出了一种基于miRNAs 与其靶基因关联性的预测算法。通过实验测试证明,此算法是可行的,且MFEL参数的引入可大大提高预测的效率。
其他文献
目前的数据库应用系统管理的数据大部分是与时间有关的,数据仓库就是一个很好的例子。通常把具有一种时间属性的数据称作是时态数据,时态数据的时间属性是指有效时间或事务时
在信息时代的今天,随着网络技术和多媒体技术的高速发展和广泛应用,越来越多的信息在网络上迅速方便地传输,但这同时也带来了信息安全隐患问题。因而,如何保护信息安全成为国
本文首先以QR二维条码为例,探讨了二维条码图像的定位与分割算法,利用Radon变换与Sobel边缘检测算法将条码图像从原始条码图像中有效地分割出来;然后分析了经过光学系统的条码图
集成了传感器、微机电系统和网络三大技术而形成的传感器网络是一种全新的信息获取和处理技术。随机分布的大量传感器节点,以无线自组织的方式构成网络,通过节点中内置的各种类
当前,大量的Web应用都采取了快速迭代的开发方式,产品需求时常发生改变,产品的前台界面和后台业务逻辑通常也会随之改变。因此,需要进行大量严格的回归测试,验证功能是否能完
由于采用了联合检测、智能天线等关键技术,TD-SCDMA 系统相对于WCDMA 和 CDMA2000 具有最好的频谱利用率,因此 TD-SCDMA 的相应关键技术是现在各个公司研究的重点。其中联合检
随着多媒体技术的快速发展,视频数据大量地增加,基于内容的视频检索的应用越来越广泛,而关键帧提取技术是视频分析和基于内容的视频检索的基础。一个镜头的关键帧就是反映该镜头
随着电子商务的发展,电子支付安全问题已成为人们日益关注的热点。常用的电子支付的协议有SSL协议和SET协议。基于SSL协议的电子支付系统成本低、应用简单透明、相对简单且快
Google Scholar为我们搜索各种来源的学术文献信息提供了一个简单易用的平台。它使用网络爬虫来把各种来源的文献信息集中存储到Google自己的数据库里,然后通过web向用户提供
自从全基因组测序成为可能以来,基因组结构注释(包括了解基因组DNA中的基因组成、结构及其调控元件)成为生物信息学研究的重要问题,由于基因组结构注释系统的计算量庞大,需要