论文部分内容阅读
利用基因表达谱技术,人们可以在一次实验中同时获得组织样本中成千上万个基因的表达数据,为肿瘤学提供了一种全新的研究手段。如何从庞大的肿瘤基因表达谱数据中分析和挖掘出有用的信息和知识,更加全面的认识肿瘤的基因本质、获得对“肿瘤—基因”间关系的真实反映,推进肿瘤学的基础研究和肿瘤的临床诊断与治疗,是当前生物信息学和肿瘤学研究的重要课题。论文基于肿瘤基因表达谱数据,从研究样本的有效分类入手,利用分类特征选取技术,就肿瘤基因表达谱数据中分类特征规则的提取、肿瘤分类特征基因的鉴别和肿瘤特异表达基因的发现三个关键问题作为主要研究内容,以从不同角度揭示出可能的“肿瘤—基因”间的关系。在分析方法上,力求将计算智能的基本理论和方法同生物学知识有效结合,从而发展出一种分析和处理基因表达谱数据的有效方法。论文取得的主要研究成果如下:
(1)以多发性骨髓瘤基因表达谱数据集作为具体的研究对象,提出了一种基于离散型基因表达谱数据的知识提取方法,得到了多发性骨髓瘤基因表达谱中蕴含的5条样本分类规则,并从生物学角度对其进行详细分析以阐明其生物学含义。这些分类知识的发现对多发性骨髓瘤的基因诊断、研究多发性骨髓瘤中特异的基因表达行为具有重要意义。在分析方法上,充分考虑了基因表达谱数据集样本少、维数高这一突出特点,针对已有归纳学习算法在处理小样本、高维数的样本学习问题时所出现的困难,通过首先计算属性的信息增益进行基因排序,然后基于神经网络进行属性规约,最后利用重采样技术形成决策树群、以综合统计指标对决策树进行性能评价的方法提取样本分类特征规则。上述方法可有效提高样本分类知识提取的准确性和鲁棒性,为肿瘤基因表达谱数据的分析提供了一种可用工具。
(2)从生物学分析入手、结合模式识别与机器学习技术重点研究了肿瘤分类特征基因选取问题。在滤除分类无关基因这一环节,充分结合生物样本数据统计分布的特点和模式识别的基础理论,提出了基因分类信息指数的概念,以全面衡量基因所含样本分类信息量。在冗余属性去除的问题上,从基因调控的基本形式出发,首先采用两两冗余分析进行强相关性冗余属性的去除,然后利用基于“属性子集评价”的特征搜索算法,从“功能基因组合”的角度出发进行分类特征基因集合的选取。在具体搜索算法的设计问题上,研究了基于概率可分性判据的浮动前向搜索算法和基于SVM分类模型灵敏度分析的后向搜索算法两种不同类型的属性选取方法,为肿瘤分类特征基因选取问题的实际求解提供了两种高效可行的算法。将上述方法应用于急性白血病的亚型识别与分类特征基因选取问题中,结果表明:同经典的研究成果相比,本文方法不仅将分类正确率提高到100%,同时利用前向、后向搜索算法分别得到了两组数量更少、更具样本分类能力的特征基因,为急性白血病亚型的准确诊断、功能芯片的设计提供了两组可用的基因标记。
(3)以Multi-Class肿瘤基因表达谱数据集作为分析基础,通过将不同类别的肿瘤组织视为一个统一的“肿瘤”类别,将对应的不同类型的正常组织作为一个统一的“正常”类别加以研究,以“肿瘤”与“正常”组织样本的有效分类为基础,利用分类特征选取技术就肿瘤特异表达基因的发现及其表达模式问题进行了分析和研究。找出了肿瘤特异表达的一组基因特征,并从信息学和统计学的角度对该组基因在肿瘤组织中特异表达的确实性和普遍性进行了全面论证,最后对其在肿瘤组织中特异的表达模式进行了分析探讨,总结了肿瘤基因表达上的特点,为人们深入认识肿瘤共同的基因表达特征、探究肿瘤发生与形成的分子机制提供了有益的参考和借鉴。在分类特征选取问题上,抛弃了从样本统计特征出发、基于属性可分性判据进行特征选取的分析方法,将基于实例的机器学习算法引入到该问题的研究中来,提出了RFERelief算法以有效获取样本的分类特征,并从理论和实验两方面证明了该算法的有效性。
论文研究课题得到了国家自然科学基金(No.60234020)支持。论文就肿瘤基因表达谱分析中一些关键环节和重要问题进行了深入研究,所做工作的核心是希望从信息学的角度分析和理解基因表达数据,以发现其中蕴含的信息和知识,并就肿瘤学研究中的某些问题进行分析和解答。所得科研成果对肿瘤的临床诊断和生物医学基础研究具有一定的参考和借鉴价值,突出了生物信息学为生物学提供线索和信息的核心功能。在方法学上强调机器学习方法同基因组学知识的结合,发展了一种具有生物信息学特色、适合于处理复杂生物数据的信息学方法,对肿瘤基因表达谱数据的分析和处理具有较强的参考和实用价值。