DNA序列比较中非比对方法的研究及应用

来源 :山东大学 | 被引量 : 0次 | 上传用户：bee2357

【摘要】

：

科学的飞速发展已经使人类开始探究生命的奥秘，包括人类自己。近几十年来，随着人类基因组计划的实施和完成，分子生物学发展的一个重要特点是生物数据的爆炸式增长。面对呈指数增

【作者】

：

钱琨

【机构】

：

山东大学

【出处】

：

山东大学

【发表日期】

：

2018年期

【关键词】

：

DNA序列非比对方法非参数统计 D2类度量分数阶傅里叶变换欧式距离

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

科学的飞速发展已经使人类开始探究生命的奥秘，包括人类自己。近几十年来，随着人类基因组计划的实施和完成，分子生物学发展的一个重要特点是生物数据的爆炸式增长。面对呈指数增长趋势的海量数据，如何高效管理、准确解读、从而挖掘有用的生物信息，是一项有意义的工作，同时也是生物、数学、计算机科学等多个领域专家学者面临的一大挑战。在这种背景下，一门交叉学科——生物信息学诞生了。生物信息学研究的对象包括核苷酸、蛋白质序列及各类生物数据库。生物信息学中最基础最核心的内容之一是序列比较。序列比较的研究方法一般分为两大类:序列比对方法和非比对方法。由于传统的序列比对方法存在一些局限性，所以非比对方法越来越受到学者们的青睐。本文以DNA序列为研究对象，研究了一些序列比较中非比对方法。主要工作有以下几方面:　　在第二章中，我们简单介绍了几种非参数检验:Spearman统计量，Wilcoxon符号秩检验和Friedman秩检验。我们通过模拟序列，利用Spear-man相关统计量找出了在不同序列长度下DS2和D*2的最佳字串长度k。另一方面，Wilcoxon符号秩检验和Friedman检验作为评价方法好坏的手段，我们将它们应用到实际数据中，通过实例说明如何使用非参数统计检验评价序列比较方法的表现。　　在第三章中，我们提出了一种新的加权度量——加权的D2类度量。传统的D2类度量是一类基于k字次数的方法。但是在D2类度量的定义中，所有的k字都被同等对待，并没有考虑不同k字在不同序列上的重要性。因此，我们利用离差最大化方法，赋予所有k字一个合适的权重，然后给出新的加权的D2类度量。我们把新提出的度量应用到相似性搜索和识别功能相关的调控序列上，实验结果表明，我们提出的方法取得了较好的效果。　　在第四章中，分数阶傅里叶变换已经在很多领域被广泛应用。因此我们考虑将离散的分数阶傅里叶变换应用到系统发育分析上。首先将DNA序列转化为数值序列，然后对数值序列做离散的分数阶傅里叶变换，并提取了新定义的矩特征向量，最后计算序列间的距离，构造系统发育树。由于分数阶傅里叶变换中参数阶的不同所得到的变换不同，因此找到合适的阶是一个至关重要的问题，我们利用Friedman检验确定合适的阶数。进一步，为了验证我们所提出方法的有效性，我们将新方法应用到三组实际数据中，通过系统发育分析表明我们的方法更加精准。　　在第五章中，提出了一个新的半度量距离，我们称之为加权指数欧式距离。类似离差最大化的思想，给出一个求解权重的优化模型。为了求解该优化模型，我们提出了基于模糊逻辑的引力搜索算法，并将新的距离应用到相似性搜索和识别功能相关的调控序列上，数值结果表明了我们提出的方法是合理的、有效的。

其他文献

带跳的rough path理论及其在线性和非线性期望中的应用

在各类工程，金融，数学等领域中，经常要遇到类似下面形式的方程dyt=f(yt)dxt，(0.0.1)其中x是一个多维的驱动信号，f是一列驱动的向量场。1如果x∈C1或者x∈C1-var那么这个方程可以理

学位

线性期望非线性期望rough path理论收敛速度

网格曲面的几种特征度量及其应用

网格曲面已经被广泛应用于计算机图形学和几何造型中。随着网格数量的快速增长和质量的不断提高,实际中产生了很多基于人类感知的网格应用,这预示着在处理网格的时候要将人类

学位

网格曲面特征度量网格简化网格搜索

赋p-Amemiya范数的Musielak-Orlicz空间的复凸性

近年来，复Banach空间几何理论的研究已经逐渐成为国内外数学工作者所关注的领域。复Banach空间几何性质的讨论起源于向量值解析函数相关性质方面的研究，在研究过程中学者们发现

学位

赋p-Amemiya范数Musielak-Orlicz空间复凸性判别准则几何理论

带五次项的更一般的非线性Schrodinger方程的有限差分方法

本文考虑如下带五次项的更一般的非线性Schr(o)dinger方程的初边值问题{iut+uxx+q(|u|2)u-β|u|4u=f(x，t)u， xl≤x≤xr，0＜t≤Tu(xl，t)=u(xr，t)=0u(x，0)=u0(x)其中q(s)，f(x，t)为已知的

学位

非线性Schr(o)dinger方程有限差分方法差分格式守恒性收敛性稳定性

外汇期权定价的非参数估计

外汇期权作为一种出现最晚发展最快的金融衍生品，其良好的避险作用，受到各个国家和经济体的青睐，对于其定价模型的研究也在不断的发展与完善.传统的均值回归对数模型在波动率为

学位

外汇期权均值回归非参数估计数值解定价效果

求解电报方程的两种交替方向法

在现代物理学的研究中，出现了许多非线性发展方程.电报方程就是从研究电报线上电压和电流的变化规律推导出来的，它描述了均匀传输线上电压和电流的关系，所以又被称为传输线方程.

学位

电报方程交替方向法计算格式均匀传输线

周期时变布尔网络的完全同步化（英文）

本文主要研究了驱动–响应结构下的布尔网络的完全同步化,其中驱动系统是一个周期性时变的布尔网络.对于上述问题,本文基于逻辑系统的代数形式下分两种情况讨论.对于每种情况

期刊

同步化时变布尔网络逻辑系统充要条件周期性synchronized有效性integer完全同步

加速试验下基于随机截尾数据的元件及系统可靠性估计

可靠性分析是统计学的一门重要分支，有着较强的应用性，因此受到了工程界等的高度重视。在实际的工作和生活中我们经常会遇到可靠性问题，例如，我们在购买电视机等家用电器时都想要

学位

随机截尾数据加速试验系统可靠性应力水平复杂系统

图的几类染色问题以及超图中的彩色匹配

图染色理论和极值图论是图论中非常重要的两个研究课题，在计算机科学、信息安全以及模式匹配等领域有着广泛的应用。在本文中，我们主要讨论了以下几类图染色问题以及3-一致超图

学位

图论染色问题k-一致超图彩色匹配

时间分布阶扩散方程的快速算法研究

近年来，关于时间分布阶扩散方程的研究得到了广泛的关注，许多扩散指数随时间变化的复杂扩散过程，如减速的慢扩散和加速的超扩散、减速的超扩散和加速的慢扩散等，都可以用这类方程

学位

时间分布阶扩散方程有限差分格式快速算法收敛性

DNA序列比较中非比对方法的研究及应用

与本文相关的学术论文