论文部分内容阅读
人类基因组计划的实施和基因芯片技术的发展促生了海量的生物数据,为解决各种生物数据的存储、处理、理解等问题,一门新兴交叉学科-生物信息学应运而生。它综合运用数学、计算机和生物技术,对生物信息的获取、加工、存储、管理、分析和解读,理解数据的生物学含义。生物信息学在后基因组时代的研究内容转移到在系统水平上分析基因之间的相互调控机制,并在此基础上构建调控网络,发现基因的功能,揭示生命的秘密。本文以酵母细胞生长周期的表达数据集为研究对象,从信息提取与处理的角度,研究了生物基因表达数据的处理分析和调控网络构建方法,主要的研究内容包括:
1)由于实验或者人为等因素,在基因表达数据中不可避免的存在缺失数据,后续的处理往往要求数据的完整的,因此需要利用已有的数据对缺失数据进行有效地估计。目前的缺失值估计算法可以较有效的估计缺失值,但存在精度不高,计算复杂,没有充分利用已知数据等不足之处,本文提出了基于双聚类的缺失值处理算法,发掘出基因在局部实验条件上相关的双聚类,利用最小化该双聚类的相关性评价准则对缺失值进行快速准确的估计,同时也提高了双聚类的质量。
2)基因表达谱数据量大,维数高,要挖掘出数据背后的信息,识别和分类基因功能,聚类是主要的分析手段,其最终目的是寻找多类目标样本集的最佳划分,同一类一般是具有已知功能的基因,这样可以利用聚类来对未知功能的基因进行划分和辨识。针对常用的聚类算法需要预先指定聚类数目、对边界和噪声数据敏感以及存在误判问题:如果需要加入新的类别,必然影响整个系统。采用支持向量数据描述算法通过寻找覆盖样本在特征空间的最优超球实现对数据的聚类,将聚类有效性评价准则作为寻找支持向量数据描述参数的目标函数,通过模拟退火优化算法寻找最佳参数,不仅减少了误判率,新类别的介入也不需重新训练全部样本。本文在研究上述问题的过程中,提出了一种基于边界能量函数自动搜索超球边界的算法,避免参数寻优的繁琐,提高了运算速度。
3)传统的聚类算法是利用一些相似性的度量指标对基因在全部的条件下进行聚类,然而随着基因规模和条件数目的增长,要求基因在所有的条件下具有相似性不太实际,同时,一个基因或样本只能属于一个类别,这种互异的结果与实际基因可能参与到多个生物进程的现象并不相符。对基因和条件同时进行双聚类,不仅可以在高维数据集中发现局部的相似信息,而且双聚类之间允许重叠,可以反映基因的多功能性。现有的双聚类算法基于均方残差的准则,通过贪婪算法或者智能算法,得到最后的双聚类结果,本文采用多目标优化算法,以双聚类的规模和均方残差与行方差之比作为目标函数,在文化算法的框架中改进了多样性维护策略和选择机制,进行多目标优化,最后得到表达一致的基因双聚类簇。
4)建立基因调控网络模型的目的即是为了帮助从系统水平上研究基因之间的相互作用关系,从而发现基因的新功能,认识复杂的生命现象,构建基因调控网络是是从基因表达数据到数学模型的逆向工程,现有的调控模型中,微分方程最为灵活,能够描述复杂的调控关系,本文以分数阶微分方程为对象,采用人工鱼群算法进化微分方程模型的右端项,寻找适合于实验数据的调控模型和参数,并对算法的自适应策略进行改进,实验结果表明本文模型可以大大提高数据拟合精度。
5)随机网络模型相对于确定型网络具有不依赖于先验知识和参数模型、可采用实例学习的方法获取模型参数、统计学意义上更为可靠,而且通过增加学习的实例可以提高基因网络构建的鲁棒性等优点。本文研究了贝叶斯网络和隐马尔可夫模型在基因调控网络的重构中应用,以贝叶斯信息准则作为目标函数,利用改进的优化算法对贝叶斯网络的结构进行学习,从而得到最后的调控网络:把基因指定为不同状态,训练出隐马尔可夫模型,依据输出状态转移概率矩阵找出目标基因的可能父代调控基因组,获得概率基因调控网络。通过模拟数据和真实生物数据的实验结果验证了建模方法的有效性。
利用信息分析方法对生物信息进行处理和建模分析是多学科融合的研究课题,本文研究了生物基因表达数据的缺失值填充、聚类分析和基因调控网络模型构建等热点问题,提出了有效的算法,得到了较满意的结果,对于生物学家分析生物数据、设计生物实验具有一定的借鉴意义。