论文部分内容阅读
目前,癌症患者的数量一直呈线性增长,癌症的预防和治疗依然是当今世界的难题。癌症的种类繁多,更增加了治疗癌症的难度,而进行癌症治疗的首要步骤就是进行癌细胞的分类。分类的正确性将直接影响对患者的诊断。伴随美国率先提出的人类基因工程的成功绘制,DNA微阵列技术的应运而生,癌症的研究进入了一个新的时代。DNA微阵列技术能同时自动、快速而且高效的检测成千上万个基因的表达情况,通过对这些基因表达数据的分析从而在分子层面上对细胞生理状态的进一步了解,如哪些基因引起癌变、癌细胞何时扩散和转移等等。该技术对于癌症诊断、解释癌症发生机制以及药物开发等方面有着极其重要的作用。微阵列技术的到来对癌症研究提供便利的同时,也带来了对于海量生物数据进行处理的新挑战。由于高昂的实验成本限制了实验次数,因此DNA微阵列数据具有小样本高维数、高噪声、高冗余、分布不均匀的特性。对于这样的数据,若直接用于训练分类器,将会出现过拟合的现象,甚至对于许多传统的分类器无效。为了解决这样的问题,通常从原始数据中提取特征基因子集,以达到降维的目的。同时,多分类问题一直是一个难点,但在现实生活中常常存在。与二分类相比,不仅分类模型更加复杂,而且获得的分类效果更差。对于这种典型的“高维数低样本”微阵列数据的多分类问题,要想获得较好的分类准确率是更难上加难。为了解决癌细胞多分类问题,本文主要从两方面进行了研究:一是特征选择;二是将多分类问题转化成多个二分类问题。通过结合过滤法具有快速易执行和缠绕法具有能够高效选择特征基因的优点,提出了一种基于过滤法与缠绕法混合的特征基因选择方法——基于BW ratio和柔性神经树的混合特征基因选择方法。该方法的思想是:首先采用BW ratio对原始数据进行特征选择;然后按照某种编码策略将BW ratio所选择的多类别特征基因子集划分成多个两类别的特征基因子集;最后采用柔性神经树对这些两类别的特征基因子集再次进行特征选择,从而得到最终的特征基因。本文采用“一对一”的编码策略将多分类问题转换成多个二分类问题来解决。由于柔性神经树是一种特殊的神经网络,我们采用概率增强式程序进化来优化柔性神经树的结构,其参数通过粒子群优化算法来调整。鉴于柔性神经树具有选择特征基因的同时进行分类,我们并采用人工神经网络作为子分类器来进一步验证:我们所提出的混合特征基因选择方法对分类的有效性。实验中,采用国际通用的微阵列数据集MLL(三类别)和Brain(四类别)来进行分类,结果表明本文所提出的方法比其他的方法具有更少的特征基因数和更高的分类准确率。