论文部分内容阅读
基因芯片技术的出现使得研究者可以同时分析上万个基因在各种生理状态或不同的发育阶段的表达情况以揭示它们的功能和相互之间的作用关系。目前,该技术已经被广泛地应用于医学疾病诊断和治疗,药物筛选和鉴定、农作物育种、环境监测等领域。面对海量基因表达谱数据,如何利用这些数据研究基因间的调控关系成为当前生物信息学的一个重要领域,使用数学模型对基因表达数据进行挖掘已成为研究热点。本文针对基因表达谱数据提出了几种数据挖掘方法,并对珊瑚基因的时间序列表达谱数据进行了深入分析。在第一章,论文简单地介绍了基因芯片技术,分析了目前基因表达谱数据挖掘的研究现状,概括了本文的主要研究工作。在建立基因逻辑网络时,需要知道基因是处于“表达”还是“抑制”状态,而数据库中给出的表达谱数据只代表基因的表达水平并未给出确切的表达状态。因此,在第二章中,我们给出了一种基于遗传算法和LVQ网的基因表达数据阈值分析方法。对于小的数据集,直接用遗传算法优化的Otsu算法找出阈值并给出二值分类结果。对于大的数据集,先选出它的一个子集,并用遗传算法优化的Otsu算法对其进行处理;然后,将处理结果后作为遗传算法优化LVQ网络的训练集对网络进行训练;最后,用训练好的LVQ网络对大数据集进行二值化分类。基因的时间序列表达谱是一种非平稳的信号,这种非平稳的信号中含有大量信息。为了更好地挖掘基因表达谱中的信息,在第三章,我们先通过数据预处理和差异基因筛选找出表达差异大的相关基因;然后对这些表达差异大的相关基因的时间序列信号做离散的小波变换得到相应的频域信号,再利用这些相关基因的频域信号进行基因之间的相关分析,构建这些基因之间的一个无向网络,通过相关度数分析寻找关键基因;最后通过关键基因的基因功能注释挖掘出基因时间序列表达数据的生物学信息,即找到与造礁功能密切相关的关键基因。在文章的最后,对基因芯片技术和基因表达谱数据的挖掘方法作了一下展望,并且提出了下一步研究的方向。