论文部分内容阅读
随着人类基因组计划的实施和顺利完成,产生出了海量的生物数据,有待于人们利用各种方法、从不同角度对其进行分析和解释,以获得对生命现象更加深入的理解和认识。生物信息学的出现和发展为人们利用信息科学的理论和方法对这些数据进行理解和分析、挖掘其中隐含的信息和知识提供了一种有效的研究手段。生物信息学是一门交叉科学,它包含了生物信息的获取、处理、存储、分发、分析和解释等在内的所有方面,它综合运用数学、计算机科学和生物学的各种工具,来阐明和理解大量数据所包含的生物学意义。随着生物信息学的兴起,基因芯片技术的研究已经得到越来越多研究者的重视。应用基因表达谱数据对癌症进行基因挖掘、分类与诊断,已经逐渐成为生物信息学领域的研究热点之一。 基因芯片技术的产生和应用为生物信息学的发展提供了极大动力。利用基因芯片能同时对大量的遗传信息进行高效、快速的检测、分析,因而被广泛的应用于医学尤其是癌症的分类诊断和预测、病因与发病机制分析、肿瘤药物筛选等研究方面。芯片技术的发展带来了生物信息数据的爆炸式增长,如何选择合适的方法处理芯片检测产生的海量数据,挖掘其背后隐藏的生物信息成为癌症研究的当务之急。利用基因表达谱在分子水平上对肿瘤进行分析和研究,是当前生物信息学研究的重要课题。本文将数据挖掘技术应用于基因表达谱分类分析领域,对特征提取和选择技术以及分类器的选择和改进进行了研究,取得如下研究成果: (1)为提高特征基因选择的有效性,结合Relief算法和粗糙集的优点,提出了基于邻域粗糙集的特征基因选取方法。用于选取数目较少且分类能力较强的特征基因。为寻找对疾病有鉴别意义的特征基因排除了大量无关基因的干扰,使得选择出来的特征基因可以更有效地用来对疾病进行诊断。 (2)针对分类中分类器的选取问题,本文提出基于Bagging的概率神经网络集成分类方法。实验结果表明,该方法能够有效地降低分类误差,提高分类准确率,具有较好的泛化能力以及较快的执行速度。 (3)针对癌症基因表达谱结构维数高而样本小、噪声冗余多而信息基因少的特点,提出一种用于癌症分类的基于邻域粗糙集和概率神经网络集成的分类方法。首先利用Relief算法对基因进行排序,然后利用邻域粗糙集选取分类特征基因,最后结合概率神经网络集成分类模型进行癌症分类。在结肠癌、胃癌和卵巢癌数据集上的实验结果表明,该方法可以快速有效地选取癌症特征基因,并能获得较好的分类效果。 本文最后列出了目前癌症分类研究存在的一些问题以及今后需进一步开展的研究工作。