生物高分子中信息学分析新方法研究

来源 :西北师范大学 | 被引量 : 0次 | 上传用户:kingwill
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
一、研究背景及意义随着人类基因组计划(Human genome Project(HGP))的完成,关于生命科学的研究进入了后基因时代,迄今,已经产生了海量的数据,数据的积累必将产生重大的发现。如何从这些数据中最大限度地获取有用信息并缩短整个研究的进程是科学家面临的重要课题,随之兴起的与DNA有关的复杂体系的信息学要求研究者能够利用信息学的手段获取、分析和挖掘数据结果,尽管已有相当多的重大发现,但是距离最终解析所有的关于生命的奥秘仍有很长的路程,需要研究者开拓新的思路、发现新的分析方法和工具。本文主要针对生物高分子体系(DNA和蛋白质等),运用生物信息学和化学计量学(主成分分析、人工神经网络、多元统计方法、傅立叶分析、小波分析)的方法,做了以下研究:1,基因预测新方法研究;2,目标分子与DNA的相互作用研究;3,复杂生物、化学体系频率分析新方法研究,其中包括:(1)复杂分析化学体系重叠信号的解析研究;(2)基于小波变换的核酸序列的频率特征和进化研究;(3)膜蛋白跨膜区域的预测研究;4,隐马尔可夫模型对核酸序列的识别研究。二、研究内容及结果1.基因预测新方法研究提出了一种综合的基因预测方法,首先计算序列的四个的特征:三周期特性、D值、GC含量和New ZCurve;利用这四个特征图谱,初步确定编码区的数目和位置;然后用序列搜索的方法准确确定基因的结构。其中New ZCurve特征是基于ZCurve提出的一种新的特征,通过该特征,可以初步确定编码区的数目和位置。对5个已知的基因的预测结果显示,本文提出的方法具有可行性。2.目标分子与DNA的相互作用研究目标分子与DNA相互作用的研究在了解药物作用机理、分子设计和药物筛选等方面有重要意义。目前主要以实验方法研究两者的作用机理(包括作用常数和作用模式),较难从分子结构水平发现影响相互作用的因素,而且对于批量的未知化合物与DNA的相互作用无法进行预测。本文以目标分子与DNA相互作用的实验数据和目标分子的结构量化数据为基础,应用模式识别技术、多元回归和人工神经网络方法讨论了显著影响相互作用的因素,建立了两个预测作用常数的模型和一个预测作用模式的模型。初次量化的分子结构参数有24种,经过筛选发现其中的12种对相互作用有显著的影响。所建立的模型对作用模式和常数的预测有较好的准确性。这些研究为抗癌药物的分子设计和筛选可提供有价值的信息。3.复杂生物、化学体系频率分析新方法研究(1)复杂分析化学体系重叠信号的解析研究为了估计重叠信号中单峰(组分)的数目和位置,本文基于连续小波变换((CWT))提出了一种新的重叠峰定位方法——连续小波变换极大值谱(maximum spectrum of continuous wavelet transform(MSCWT)),在blSCWT中,峰的位置和数目与原信号包含的单峰的位置和数目一致。在该方法中,CWT的计算是在一定的尺度范围内进行的(不同于单尺度变换)。为了获得合适的变换尺度范围,提出了一个新的判据,如果Cdilation代表中心尺度,则合适的范围是[Cdilation-6±2,Cdilation+1±1]。通过MSCWT检测到峰的位置和数目后,拟合方法被用于还原各单峰信号。本文对模拟信号、高效液相色谱(HPLC)、紫外信号(UV)、差示脉冲伏安(DPV)信号分别做了分析,结果表明本文的重叠信号解析技术有很高的准确度,适合处理不同类型的重叠信号。(2)基于小波变换的核酸序列的频率特征和进化研究提出了两种新的频率分析技术——小波频率谱(WFS)和小波变换Fourier频率谱(WTFS),并将其成功地应用于核酸序列的频率分析之中。结果表明:WFS和WTFS能准确地检测核酸编码区序列的三周期性,即在0.333Hz处有信号峰。与Fourier频率谱相比,WFS没有噪音干扰,而且可以自由变换区间观察信号频率;而WTFS除了具有WFS的优点外,其谱图呈线状,非常有利于频率的分析。利用WFS和WTFS,再结合基因的其它特征,有望开发具有自识别的基因发现工具。WFS除了可以研究核酸序列的频率特点以外,还可以作为序列的频域表示。基于WFS表示,本文对11个核酸序列(引起急性严重呼吸系统窘迫症的冠状病毒(SARSCoV))做了进化分析,结果表明尽管它们非常相似,但是还是存在差异,暗示它们具有不同的变异方式。这种基于序列频域表示的进化分析是一种新的分析思路。(3)膜蛋白跨膜区域的预测研究如何从少数已知结构的膜蛋白预测大量未知结构的膜蛋白是蛋白质结构预测的主要内容之一。本文利用MSCWT对8种SARSCOV膜蛋白的跨膜区域做了预测,其结果与TMpred(Swiss)软件、单尺度连续小波变换的结果进行了比较,发现本文所述的方法有较高的准确性。而且可以为进一步研究跨膜片段的折叠提供参考。4.隐马尔可夫模型(HMM)对核酸序列的识别研究建立了一个用于识别DNA(或RNA)序列中多个特殊序列的隐马尔可夫模型,该模型通过训练可以识别任一序列中是否存在与训练序列相似的序列。文中以预测连续出现的CG丰富区和TA丰富区为例,提出了一种可操作的识别过程。实验结果显示该HMM可以成功识别序列中是否含有期待的序列。通过设定具有不同特征的训练序列,模型可推广用于任何特征序列的识别。三、创新点本论文的创新点如下:(1)基于ZCurve曲线,衍生出了核酸序列的一种新的特征曲线——NewZCurve(NZC),依据该曲线中出现的单峰或靠得很近的组峰的数目和位置可以预测编码区的数目和大概位置,这在文献中未见报道。另一个创新点是本文提出了一种综合多特征的基因识别方法,对已知的基因预测的结果显示,该方法具有较好的准确性,而且操作简单。(2)在目标分子与DNA相互作用的研究中,提出了从目标分子结构量化参数出发,结合实验数据预测目标分子与DNA相互作用的模式和常数的新方法,该方法提出的两个预测作用常数和预测作用模式的模型能对批量未知分子与DNA的作用情况进行预测,这对分子设计和筛选具有重要意义。(3)在处理复杂化学体系重叠信号的研究中,提出了一种基于连续小波变换的新的波谱方法——连续小波变换极大值谱(MSCWT),该谱能准确定位重叠信号中各单组分峰的数目和位置,为进一步用拟合方法解析原始重叠信号提供了坚实的依据。(4)基于连续小波变换,提出了一种新的频率分析波谱——小波频率谱,并将其应用于核酸序列(以SARSCoV为例)的频率分析和核酸序列的频域表示。利用核酸序列的频域表示研究了11种SARSCoV的系统进化,这种基于序列频域表示的进化研究思路在其它文献中未见报道。(5)开发了小波变换Fourier频率谱(WTFS),并将其应用于蛋白质编码区三周期性的检测。WTFS继承了小波变换的多尺度分析(可以自由变换频率范围)和Fourier变换的高分辨的特点,其谱图呈线状,易于观察,抗噪能力强。(6)用连续小波变换极大值谱处理膜蛋白的疏水序列,不但可以较好地确定跨膜区域的位置,而且可以推测跨膜区域内蛋白的可能的折叠方式。
其他文献
自然界中,双极性闪电发生的概率极小。双极性闪电的形成机制、放电特性以及相应的雷云电荷结构等都迥异于普通的正、负闪电。因此,人们对双极性闪电的研究始终极为关注。闪电放电形成一个温度高达数万度的等离子体通道,并伴随发光、雷声和电磁辐射。闪电光谱是诊断闪电通道内部物理性质的有效手段之一。目前,还没有双极性闪电光谱的研究报道。本论文利用无狭缝光谱仪、配合快天线雷电电场变化仪记录了青海省大通县夏季雷暴中一次
电子-离子的碰撞是原子物理学中的基本过程,双电子复合过程作为重要的电子-离子非弹性碰撞现象之一,广泛存在于天体等离子体和实验室等离子体环境中。高精度的双电子复合过程的强度、截面以及速率系数是模拟和诊断各种天体等离子体、实验室等离子体以及研制X射线激光非常重要的参数。本文利用准相对论Hartree-Fock方法、多组态Dirac-Fock方法以及相对论组态相互作用方法分别对类钠铜离子,类氦镁、铝离子
Gorenstein投射模是上世纪九十年代Enochs基于Auslander的G-维数的定义而引入的[6],它是G-维数等于零的有限生成模的推广。2004年,Holm在任意结合环上引入并研究了Gorenstein投射模[60]。2008年,Sather-Wagstaff等人引入了二次Gorenstein投射模的概念。通过对Abelian范畴的子范畴——Gorenstein范畴的分析研究,证明了在交
本文主要研究了Gorenstein投射、内射和平坦模的性质及扩张。全文由四章组成。第一章给出了Gorenstein投射模和Gorenstein内射模关于正向极限封闭的必要条件,讨论了Gorenstein内射模和Gorenstein平坦模间的关系,并刻画了所有模是Gorenstein平坦模的环。第二章研究了模的强Gorenstein同调性质。我们讨论了强Gorenstein投射模的类是project
电子-离子的碰撞激发是原子物理学中的基本过程之一,广泛存在于各种温度和密度范围的等离子体中。高精度的电子-离子碰撞激发的强度、截面以及速率系数是模拟和诊断各种天体等离子体、实验室等离子体以及研制X射线激光非常重要的参数。本文利用我们最近基于多组态的Dirac-Fock(MCDF)理论方法和大规模原子结构计算程序GRASP92和RATIP基础上发展的研究电子-离子(原子)碰撞激发过程的全相对论扭曲波
本学位论文共分六章,研究对象为几类差分方程周期边值问题,主要研究线性差分方程周期边值问题谱理论并结合非线性工具研究几类非线性差分方程边值问题的解的存在性和解的全局结构.第一章是绪论.阐明本文的研究背景、理论框架、介绍所研究的主要问题和所得主要结果.第二章运用Leray-Schauder原理研究带权非线性差分方程周期边值共振问题解的存在性.设λk是问题(0.0.1)所对应的线性化问题的第k个特征值,
本文主要研究了广义幂级数环上的模范畴理论。全文由四章组成。第一章主要研究了广义幂级数模。在一定条件下,给出了广义幂级数模是reduced模,Baer模,pp-模,拟Baer模,p.q.Baer模,Ikeda-Nakayama模和单列模的充分必要条件。这些结果统一并推广了已有的关于模的多项式扩张和幂级数扩张的相应结果。本章的最后,研究了广义幂级数环的一些特殊性质。第二章研究了广义Macaulay-N
本学位论文共分五章,研究对象为几类时标动态方程边值问题。重在运用线仕动态方程谱理论研究几类非线性动态方程边值问题的可解性。第一章是绪论。阐明本文研究背景,理论框架,介绍所研究的主要问题和所得主要结果。提出了一个新的概念—V差分方程。第二章运用全局分歧理论,研究非线性动态方程加权特征值问题正解的存在性。设λ1是问题(0.0.1)对应的线性化问题的第一个特征值。该章获得了参数λ依赖于λ1的取值范围,在
原子和离子的光电离是光与原子相互作用的主要过程之一。研究原子的光电离过程有助于了解原子中的电子关联和相对论效应。光电离截面以及与之相关的一些物理量(共振位置、宽度、振子强度)在天体物理、等离子体物理、大气科学、辐射物理和化学等学科都具有很强的应用需求。本文利用R-矩阵方法对部分原子和离子的价壳层、内壳层光电离过程进行了较详细的研究。具体来说,本文的主要内容如下:1.由于已有的一些关于类Be和类B离
学位