论文部分内容阅读
基因芯片是现代分子生物学、生物信息学、材料学、计算机科学及微加工技术等领域的高新技术相结合的产物。通过基因表达技术可以同时观测到在某一生命现象中成千上万个基因的动态表达水平,由此产生了海量的数据。使用数据挖掘技术分析这些数据可以得到有用的知识,从而在基因组水平上以系统的、全局的观念去研究生命现象及其本质。基因表达谱上的数据挖掘技术的研究和应用已成为热点问题。应用于基因表达谱上的数据挖掘技术主要有聚类、分类以及基因调控网络建模等。本文针对基因表达谱数据的预处理、聚类及有效性分析、分类、调控网络建模等方面开展研究。
本文讨论了使用主成份分析方法和小波变换方法对基因表达数据进行预处理,实现基因表达数据的降维和去噪,便于数据可视化,并能提高数据挖掘算法的性能。
本文研究了yeung提出的用于聚类有效性检验的FOM方法,并针对FOM方法的不足,提出了EFOM方法。针对基于模型的聚类方法分析基因表达谱数据,文中主要讨论了自组织图模型和高斯混合模型如何应用于基因表达数据的聚类分析,并针对如何进行模型选择从而确定最佳的类别数目进行了研究。由于高斯混合模型的训练算法复杂度较高,通过主成份分析降维后不但降低了聚类的算法复杂度,而且聚类效果有所提高。
本文讨论了基因表达谱数据的分类分析方法,其中包括基于基因的分类分析和基于样本的分类,针对基因选择方法对分类正确率的影响进行了实验研究。另外,为了解决分类准确率低且分类器泛化能力差这一问题,本文讨论并通过实验分析了基于样本扰动的多分类器集成方法,并在此基础上提出基于小波变换的样本扰动的多分类器集成方法,取得了良好的结果。
本文讨论了如何采用布尔网络模型进行基因调控网络建模。在akutsu提出的基因网络的辨识算法以及liang提出的REVEAL算法的基础上,提出了在集群环境下的并行算法,并就如何提高加速比进行了讨论。在集群系统——南开之星上实现的并行算法,加速比达到了理想效果。
基于本文的研究工作,设计和开发了基因挖掘系统GeneMiner。GeneMiner实现了基于基因表达数据的多种数据挖掘算法,并使用WebService技术对其进行封装,使得该系统能够在多种平台多种系统上运行。