基于时间序列理论方法的生物序列特征分析

来源 :江南大学 | 被引量 : 20次 | 上传用户：lanqishi1989

【摘要】

：

生物信息学的主要研究对象是DNA、RNA和蛋白质分子,因为这些生物大分子包含了遗传及物种进化的所有信息.随着DNA和蛋白质被测序,如何从这些DNA和蛋白质序列中获得更多的生物

【作者】

：

高洁

【出处】

：

江南大学

【发表日期】

：

2009年01期

【关键词】

：

混沌游走表示(CGR)-游走模型 DNA序列蛋白质序列短记忆ARMA模型长记忆ARFIMA模型均方误差准则最大似然估计状态空间模型

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

生物信息学的主要研究对象是DNA、RNA和蛋白质分子,因为这些生物大分子包含了遗传及物种进化的所有信息.随着DNA和蛋白质被测序,如何从这些DNA和蛋白质序列中获得更多的生物信息是具有挑战性的问题.随着碱基和氨基酸在基因数据库中的规模呈指数增长,利用新的理论方法去研究DNA和蛋白质序列就变得越来越重要.许多生物学家、物理学家、数学家和计算机专家都被吸引到这个研究领域中来.在介绍了生物信息学的研究背景之后,本文首先介绍了研究生物序列特性的时间序列理论方法,对本文要用到的短记忆ARMA模型和长记忆ARFIMA模型作了详细的阐述,为研究DNA序列、蛋白质序列特性做了理论上的准备工作.混沌游走表示(Chaos Game Representation,简记为CGR)是一种迭代映射技术,它可以把序列中的每一个单元,如DNA序列中的核苷酸,蛋白质序列中的氨基酸,映射到一个连续的坐标空间中去.我们基于CGR坐标提出了一种将DNA序列转换成一个时间序列(CGR-游走序列)的方法,并引入长记忆ARFIMA (p, d, q)模型来分析.我们分析了十条DNA序列的CGR-游走序列,发现都能用长记忆ARFIMA (p, d, q)模型高度显著地拟合.作为一个具有完善算法的经典时间序列模型,ARFIMA模型能帮助我们挖掘DNA序列中未知的特性.因为合适的ARFIMA模型在模型选择时成功率较低,且在参数估计中最大似然计算量较大,用短记忆模型去近似长记忆模型是研究者们感兴趣的问题.我们考虑利用短记忆ARMA(1, 1)过程去近似长记忆ARFIMA(p, d, q)过程,证明了这种适应性方法的均方误差准则,并引入DNA序列的十条CGR-游走序列用以分析,验证了这种近似方法的有效性,为长记忆DNA序列找到了一个算法更为简单的近似模型.在此基础上,我们还考虑利用ARMA(2, 2)模型去逼近ARFIMA(0, d, 0)模型.基于ARMA(2, 2)模型和ARMA(1, 1)模型有效性损失率的比较可知,ARMA(2, 2)近似模型优于ARMA(1, 1)近似模型.为验证此结论,还引入了服从ARFIMA(0, d, 0)模型的CGR-游走序列用以分析,比较了ARMA(1, 1)和ARMA(2, 2)这两个模型近似ARFIMA(0, d, 0)模型的有效性,根据残差标准差的结果可得ARMA(2, 2)近似模型优于ARMA(1, 1)近似模型.我们修改了Kalman滤波递推公式,解决了长记忆ARFIMA模型的缺失数据问题,并利用DNA序列的CGR-游走序列验证了此方法的有效性.基于已建立的DNA序列的CGR-游走模型,我们建立了一个类似的基于详细HP模型的连接蛋白质序列的CGR-游走模型,并引入长记忆ARFIMA (p, d, q)模型来分析,发现来自12条细菌全基因组的连接蛋白质序列的CGR-游走序列能用长记忆ARFIMA (p, d, q)模型显著地拟合.

其他文献

基于风电运行可行域及寿命减损的储能控制策略研究

发展风电是我国推进能源转型及改善生态环境的有效手段,但由于风电具有的随机波动特性,其大规模联网给电网带来严峻的调控负担,制约电网接纳风电能力。储能系统具备快速响应和能量迁移的特性,可以有效改善电网接纳风电能力。但由于现阶段储能系统价格昂贵、循环寿命不足,因此如何配置储能系统容量、制定储能系统控制策略,使其在具备一定经济效益的同时,改善电网接纳风电能力、延长储能系统使用寿命已经成为业界研究的重点。首

学位

储能系统容量配置控制策略设计风电运行可行域寿命减损

浅析岩层产状测量与成图精度的影响因素

介绍了岩层产状的定义,产状要求,岩层产状测量与成图原理,以及岩层产状测量与成图精度的主要影响因素和提高精度的措施。

期刊

岩层产状测量成图精度措施

AP2/EREBP家族MfERF049基因对提高豆科植物生物胁迫和非生物胁迫抗性的功能分析

黄花苜蓿(Medicago falcata L.),豆科苜蓿属草本植物,是一种分布范围极广、抗逆能力很强、形态多样、品质优良、营养价值丰富的豆科牧草。为了研究黄花苜蓿中既能响应生物胁迫,又能响应抗非生物胁迫的基因,本研究将黄花苜蓿的MfERF049基因转化至截形苜蓿A17(Medicago truncatula A17)的根中对该基因在提高植物抗逆性方面的功能进行了分析。实验室前期对野生黄花苜蓿进

学位

野生黄花苜蓿MfERF049基因分子克隆抗逆性毛根转化

迷失与毁灭—《光明天使》伦理解读

乔伊斯·卡罗尔·欧茨,美国当代最具影响力的作家之一,其作品堪称反映美国社会的万花筒。《光明天使》是其另一部杰作。书中对美国社会文化、政治、家庭,以及人们的生活和精

学位

《光明天使》文学伦理学伦理关系伦理选择伦理身份伦理责任

评估系统的复杂性及其控制策略研究

本文以系统工程、复杂系统理论为指导,对评估活动进行了系统分析,并对评估过程中的复杂特性表现以及相关控制策略进行了研究。本文的研究工作主要集中在以下四个方面：一、评估

学位

评估系统复杂性控制对策教学水平评估科研评估

多相交错并联BUCK型DC-DC变换器分析与设计

在微处理器供电系统中,要求DC-DC变换器能够输出低电压大电流;同时为了避免电压纹波干扰数字电路逻辑,造成错误的处理结果,这就要求DC-DC变换器输出电压纹波低。为了满足这些特殊的用电场合,本文对具有输出低电压、大电流、低纹波特性的DC-DC变换器展开了研究,主要工作如下:在分析单相BUCK型变换器的基本工作原理基础上,对多相交错并联同步BUCK型变换器的拓扑结构展开理论研究与仿真,并给出功率级电

学位

DC-DC变换器多相交错并联平均电流控制PID控制

人头颈鳞癌中ceRNA网络构建及PAK4作用的研究

目的:头颈部鳞状细胞癌（HNSCC）是危害人体健康的恶性肿瘤,其侵袭转移的分子机制尚不清楚。微小RNAs（microRNAs）是17-25nt长的RNAs,其主要是通过结合靶基因部分互补序列的3′非翻

学位

头颈鳞状细胞癌P21-活化激酶4环状RNA微小RNA生物信息学

苏州农业现代化发展的特征、经验与政策选择

党的十八大指出,解决好农业农村农民问题是全党工作的重中之重,城乡一体化是解决三农问题的根本途径。苏州是中国率先发展地区,是国务院批准的苏南现代化示范区的核心城市,国

期刊

农业现代化发展特征对策苏州

壳聚糖-沸石杂化膜的制备及其对甲基橙的吸附

采用物理共混法制备了壳聚糖-沸石杂化膜,用扫描电镜(SEM)和热重分析仪(TGA)对其进行表征,并系统地研究了壳聚糖-沸石杂化膜对甲基橙的吸附行为。结果表明,最佳质量配比为(沸

期刊

沸石壳聚糖甲基橙吸附

基于县级尺度的江西省区域经济差异测度及其影响因素分析

区域经济差异是区域经济学研究的核心问题。随着区域协调发展战略上升为国家战略,区域经济差异成为学界研究的热点。县域是区域经济发展的重要空间单元,从县级尺度分析江西省的区域经济差异,尤其是梳理改革开放以来江西省区域经济差异的格局演变特征,对于新时代背景下江西省实现区域经济协调发展具有重要意义。为此,本论文综合应用泰尔指数、收敛性分析方法对1978年以来江西省区域经济差异的演变态势进行研究;然后运用马尔

学位

区域经济差异泰尔指数分解空间过滤影响因素江西省

基于时间序列理论方法的生物序列特征分析

与本文相关的学术论文