论文部分内容阅读
当前核酸、蛋白质数据呈几何级数增长,如何从海量数据中获取有效信息成为生物信息学迫切需要解决的问题。数据挖掘技术就是从大量的数据中挖掘出有用的或者人们感兴趣的知识的一种方法。本论文运用数据挖掘中的聚类分析思想及关联规则,对植物 miRNAs 进行了聚类分析和预测。
生物信息学传统的聚类分析方法要求对待分析的序列进行预排列,同时引入空位和罚分,这使得聚类的好坏与比对算法直接相关,且不同的聚类方法对于不同的分析对象聚类效果也存在差异。因此,本论文首先分析了邻接法、最大似然法、最大简约法对于植物 miRNAs 的适应性。分析发现,最大似然法和最大简约法对植物 miRNAs 的聚类效果明显优于邻接法。随后,本论文提出了一种基于序列结构的聚类分析算法,该算法以序列结构的相似性作为聚类标准,不需要预排列,不但能正确地反映不同 miRNAs 之间的结构相关性,还能较好地反映成熟miRNAs 与其前体序列之间的结构一致性。在对已有的植物 miRNAs的统计分析基础上,通过对不同参数的对比分析,找到了一个可以用于区分miRNAs 的重要参数(MFEL),即序列的最小自由能与长度的比值。通过引入MFEL参数,本论文提出了一种基于miRNAs 与其靶基因关联性的预测算法。通过实验测试证明,此算法是可行的,且MFEL参数的引入可大大提高预测的效率。