论文部分内容阅读
基因芯片,又称DNA芯片或DNA微阵列,它们是DNA杂交探针技术与半导体工业技术相结合的结晶,并伴随着“人类基因组计划”而发展起来的一门新兴技术,具有高通量、大规模、平行性等特点,因而被广泛地应用于肿瘤发生发展过程中基因表达分析。由于基因表达谱具有小-样本、高维度的特点,给数据挖掘提出了新课题。如何选择合适的方法进行精确的肿瘤亚型分类,提取尽量少的具有分类信息的特征基因,认识肿瘤产生和发展机制并最终达到临床治疗的目的,是当前面临的关键性问题。而贝叶斯网是将概率、统计应用于复杂系统的不确定性推理和数据分析的一种有效工具,它起源于20世纪80年代中期对人工智能中的不确定性问题的研究,用贝叶斯网络构建分类模型具有直观的语义,能对生物学意义分析提供指导。现有方法大多使用单个数据集进行分析,样本量少,提取的特征基因应用于其他同类数据分类效果差。基于此,本文将研究重点放在利用贝叶斯网络构建分类器模型上,并研究同时使用多个同类数据的方法。主要做了如下工作: 1.提出了一种遗传算法与支持向量机集合的特征基因提取方法。方法改变了以往只从单一数据集提取特征基因的做法,并行分析3个胃癌微阵列数据集,提取的特征基因在所有数据集中均达到了90%以上的分类准确率。共进行了4580次实验,统计基因在遗传算法种群中出现的次数,依次排序,得出了可能对胃癌亚型分类起关键作用的基因(AGT,FBLN1)。对提取的特征基因的生物学意义分析结果表明,该方法能够很好得识别肿瘤分类基因,所选择的特征基因对人类胃癌的诊断和分型有重要意义。 2.使用遗传算法和贝叶斯信息准则(BIC)学习贝叶斯网络结构,算法不要求节点以拓扑序排列,可以有效地进行全局搜索。根据贝叶斯网络结构是有向无环图(DAG)的特点,提出一种新的遗传算法交叉和变异操作,并提出使用最大跨度权重树构建遗传算法初始种群,使得算法收敛速度加快,更容易收敛于全局最优解。实验结果表明本文算法能有效地从数据中学习贝叶斯网络结构。 3.使用遗传算法和贝叶斯网络模型构建分类器,构建过程中同时使用三个基因表达谱进行学习,分类网络具有直观的语义。首先使用分类准确率作为优化目标,发现在算法优化过程中,网络向朴素贝叶斯网络结果演化,通过将BIC与分类准确率同时作为优化目标克服了这个问题。通过留一法计算模型分类准确率,分类准确率达到了99.8%。最后使用GO和pathway对网络结构进行了分析,网络中除类别节点外的16条边,有11条边连接的两个基因同时存在于一条基因通路或GO中,与现有生物医学知识有较大程度的重合。