论文部分内容阅读
高通量生物技术的产生使得生物科学家能够对生物体内成千上万个基因的表达含量进行并行监控,其所产生的大规模基因表达数据已经成为现代生物遗传学和生物医学研究的重要基石之一。基于基因表达谱数据在基因组水平上对肿瘤进行分析和研究是当前生物信息学研究的重要课题之一。其主要挑战在于基因表达谱数据天生具有高维小样本,高噪声,高冗余,高变异等非典型的数据结构特点,使得传统的模式识别或统计方法难以取得理想的数据分析效果。 通过将基因表达谱看做为一个“时序”信号,本文提出应用连续小波变换技术分析基因表达谱数据,特别的,我们对基因表达模式提取及肿瘤亚型识别问题进行了研究。小波变换能够有效分解时序信号以提取有用的局部细节信息,具有比经典傅里叶变换更强大的信号分解和重构能力,已被广泛应用到许多数据分析领域。小波变换可以由两种方式实现,即离散小波变换和连续小波变换。一些研究人员已经将离散小波变换应用到了基因表达数据分析,获得了不错的应用效果。在这里,鉴于连续小波相比离散小波具有更加灵活的信息提取能力,我们提出应用和发展基于连续小波变换的基因表达数据分析方法。由于在基因表达数据中大量有用信息被隐藏,因此,应用连续小波变换方法以提取基因表达谱的局部隐含细节是合适的、并有希望获得更好的数据分析性能。具体的,我们将从以下四个方面进行基于连续小波变换的基因表达谱数据分析方法的研究:(1)研究不同小波基函数对应用连续小波变换方法提取有用基因表达模式性能的影响;(2)研究尺度和平移系数变化对应用连续小波变换方法提取有用基因表达模式性能的影响;(3)研究如何有效集成著名的SNR基因选择方法与连续小波变换技术以更好的提取有用基因表达模式;(4)研究在应用连续小波变换的过程中不同的基因输入顺序对基因表达模式提取性能的影响。 最后,在广泛收集公开的肿瘤基因表达谱数据的基础上,我们对本文所提的算法进行了大量模拟实验验证,并与现有分析方法进行了比较,证实了基于连续小波变换的基因表达数据分析方法的良好性能,对肿瘤的特征识别和分类具有重要的参考价值。