论文部分内容阅读
科学的飞速发展已经使人类开始探究生命的奥秘,包括人类自己。近几十年来,随着人类基因组计划的实施和完成,分子生物学发展的一个重要特点是生物数据的爆炸式增长。面对呈指数增长趋势的海量数据,如何高效管理、准确解读、从而挖掘有用的生物信息,是一项有意义的工作,同时也是生物、数学、计算机科学等多个领域专家学者面临的一大挑战。在这种背景下,一门交叉学科——生物信息学诞生了。生物信息学研究的对象包括核苷酸、蛋白质序列及各类生物数据库。生物信息学中最基础最核心的内容之一是序列比较。序列比较的研究方法一般分为两大类:序列比对方法和非比对方法。由于传统的序列比对方法存在一些局限性,所以非比对方法越来越受到学者们的青睐。本文以DNA序列为研究对象,研究了一些序列比较中非比对方法。主要工作有以下几方面: 在第二章中,我们简单介绍了几种非参数检验:Spearman统计量,Wilcoxon符号秩检验和Friedman秩检验。我们通过模拟序列,利用Spear-man相关统计量找出了在不同序列长度下DS2和D*2的最佳字串长度k。另一方面,Wilcoxon符号秩检验和Friedman检验作为评价方法好坏的手段,我们将它们应用到实际数据中,通过实例说明如何使用非参数统计检验评价序列比较方法的表现。 在第三章中,我们提出了一种新的加权度量——加权的D2类度量。传统的D2类度量是一类基于k字次数的方法。但是在D2类度量的定义中,所有的k字都被同等对待,并没有考虑不同k字在不同序列上的重要性。因此,我们利用离差最大化方法,赋予所有k字一个合适的权重,然后给出新的加权的D2类度量。我们把新提出的度量应用到相似性搜索和识别功能相关的调控序列上,实验结果表明,我们提出的方法取得了较好的效果。 在第四章中,分数阶傅里叶变换已经在很多领域被广泛应用。因此我们考虑将离散的分数阶傅里叶变换应用到系统发育分析上。首先将DNA序列转化为数值序列,然后对数值序列做离散的分数阶傅里叶变换,并提取了新定义的矩特征向量,最后计算序列间的距离,构造系统发育树。由于分数阶傅里叶变换中参数阶的不同所得到的变换不同,因此找到合适的阶是一个至关重要的问题,我们利用Friedman检验确定合适的阶数。进一步,为了验证我们所提出方法的有效性,我们将新方法应用到三组实际数据中,通过系统发育分析表明我们的方法更加精准。 在第五章中,提出了一个新的半度量距离,我们称之为加权指数欧式距离。类似离差最大化的思想,给出一个求解权重的优化模型。为了求解该优化模型,我们提出了基于模糊逻辑的引力搜索算法,并将新的距离应用到相似性搜索和识别功能相关的调控序列上,数值结果表明了我们提出的方法是合理的、有效的。