生物基因表达数据分析与建模方法研究

来源 :西安理工大学 | 被引量 : 0次 | 上传用户:ll05
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人类基因组计划的实施和基因芯片技术的发展促生了海量的生物数据,为解决各种生物数据的存储、处理、理解等问题,一门新兴交叉学科-生物信息学应运而生。它综合运用数学、计算机和生物技术,对生物信息的获取、加工、存储、管理、分析和解读,理解数据的生物学含义。生物信息学在后基因组时代的研究内容转移到在系统水平上分析基因之间的相互调控机制,并在此基础上构建调控网络,发现基因的功能,揭示生命的秘密。本文以酵母细胞生长周期的表达数据集为研究对象,从信息提取与处理的角度,研究了生物基因表达数据的处理分析和调控网络构建方法,主要的研究内容包括:   1)由于实验或者人为等因素,在基因表达数据中不可避免的存在缺失数据,后续的处理往往要求数据的完整的,因此需要利用已有的数据对缺失数据进行有效地估计。目前的缺失值估计算法可以较有效的估计缺失值,但存在精度不高,计算复杂,没有充分利用已知数据等不足之处,本文提出了基于双聚类的缺失值处理算法,发掘出基因在局部实验条件上相关的双聚类,利用最小化该双聚类的相关性评价准则对缺失值进行快速准确的估计,同时也提高了双聚类的质量。   2)基因表达谱数据量大,维数高,要挖掘出数据背后的信息,识别和分类基因功能,聚类是主要的分析手段,其最终目的是寻找多类目标样本集的最佳划分,同一类一般是具有已知功能的基因,这样可以利用聚类来对未知功能的基因进行划分和辨识。针对常用的聚类算法需要预先指定聚类数目、对边界和噪声数据敏感以及存在误判问题:如果需要加入新的类别,必然影响整个系统。采用支持向量数据描述算法通过寻找覆盖样本在特征空间的最优超球实现对数据的聚类,将聚类有效性评价准则作为寻找支持向量数据描述参数的目标函数,通过模拟退火优化算法寻找最佳参数,不仅减少了误判率,新类别的介入也不需重新训练全部样本。本文在研究上述问题的过程中,提出了一种基于边界能量函数自动搜索超球边界的算法,避免参数寻优的繁琐,提高了运算速度。   3)传统的聚类算法是利用一些相似性的度量指标对基因在全部的条件下进行聚类,然而随着基因规模和条件数目的增长,要求基因在所有的条件下具有相似性不太实际,同时,一个基因或样本只能属于一个类别,这种互异的结果与实际基因可能参与到多个生物进程的现象并不相符。对基因和条件同时进行双聚类,不仅可以在高维数据集中发现局部的相似信息,而且双聚类之间允许重叠,可以反映基因的多功能性。现有的双聚类算法基于均方残差的准则,通过贪婪算法或者智能算法,得到最后的双聚类结果,本文采用多目标优化算法,以双聚类的规模和均方残差与行方差之比作为目标函数,在文化算法的框架中改进了多样性维护策略和选择机制,进行多目标优化,最后得到表达一致的基因双聚类簇。   4)建立基因调控网络模型的目的即是为了帮助从系统水平上研究基因之间的相互作用关系,从而发现基因的新功能,认识复杂的生命现象,构建基因调控网络是是从基因表达数据到数学模型的逆向工程,现有的调控模型中,微分方程最为灵活,能够描述复杂的调控关系,本文以分数阶微分方程为对象,采用人工鱼群算法进化微分方程模型的右端项,寻找适合于实验数据的调控模型和参数,并对算法的自适应策略进行改进,实验结果表明本文模型可以大大提高数据拟合精度。   5)随机网络模型相对于确定型网络具有不依赖于先验知识和参数模型、可采用实例学习的方法获取模型参数、统计学意义上更为可靠,而且通过增加学习的实例可以提高基因网络构建的鲁棒性等优点。本文研究了贝叶斯网络和隐马尔可夫模型在基因调控网络的重构中应用,以贝叶斯信息准则作为目标函数,利用改进的优化算法对贝叶斯网络的结构进行学习,从而得到最后的调控网络:把基因指定为不同状态,训练出隐马尔可夫模型,依据输出状态转移概率矩阵找出目标基因的可能父代调控基因组,获得概率基因调控网络。通过模拟数据和真实生物数据的实验结果验证了建模方法的有效性。   利用信息分析方法对生物信息进行处理和建模分析是多学科融合的研究课题,本文研究了生物基因表达数据的缺失值填充、聚类分析和基因调控网络模型构建等热点问题,提出了有效的算法,得到了较满意的结果,对于生物学家分析生物数据、设计生物实验具有一定的借鉴意义。
其他文献
伴随着科技的进一步发展,电力能源在社会生活的各个领域承担着十分重要的任务和角色,作为变电站内重要的电气设备,高压开关柜内经常出现局部关键触点温度过高的状况,若不及时处理,会对国民造成巨大的经济损失。由于开关柜内空间狭窄,电磁干扰强,传统的温度监测方式受到了极大的限制。光纤光栅传感器抗电磁干扰能力强,绝缘性能佳,可直接安装于带电物体表面,十分适合变电站高压开关柜这种强电磁干扰环境,非常适用于高压开关
随着中国的飞速发展,中国城市化进程也急剧加速,城市轨道交通工程建设和越江越海隧道的快速发展,中国城市地下空间的总体规模跃居世界前列。目前,城市地下空间的开发利用已成
随着我国电力市场改革的深入,为增强自身的竞争力,降低发电成本,从根本上提高运行效率和管理水平,发电企业都在积极探讨、研究、开发火电厂厂级监控信息系统。   厂级监控系统
随着高速公路的快速发展和汽车的日益普及,机动车辆相撞事故频繁发生,对国民生命及财产安全构成严重的威胁,预防或降低汽车相撞事故的发生已成为汽车安全领域的重大课题,引起了各
本文针对某车载随动装置检测过程中测试周期长、精度低、无法动态测试等问题,设计了一种基于PC104的随动装置检测系统。本系统是以PC104主板为核心,通过电量取样板、驱动板、
利用DNA微阵列技术产生的基因表达谱数据,进行疾病诊断、治疗、药物研制和药物筛选是当前的一个研究热点。由于疾病诊断和药物研制直接关系到人类的健康,因此研究基因表达数
人脸识别一般可描述为给定一幅静止或动态图像,利用已有的人脸数据库来确认图像中的一个或多个人。人脸识别已经成为当前模式识别领域和人工智能领域研究的经典和热点问题,探
大型柴油发动机的高效精确运转离不开发动机状态监测系统对关键参数的全面感知。状态关键参数承载着柴油发动机运转时的各项状态信息:振动参数是健康状态信息的载体,振动状态
物联网关键技术之一是实现物联网中各种嵌入式系统的互联。在物联网众多通信协议中,TCP/IP协议将占据主导地位,承载着整个物联网。然而传统的TCP/IP协议栈并不适合直接应用于
目前安全辅助驾驶系统已经成为了汽车安全领域的研究热点,而前方车辆检测系统又是安全辅助驾驶系统中的关键技术。在阅读了国内外的各类相关参考文献,对文献中各种车辆检测算