论文部分内容阅读
DNA微阵列技术的兴起使得研究者们仅需一次实验即可同时检测细胞或组织中成千上万个基因的表达水平成为现实,这为从基因组水平上洞悉人类疾病,特别是癌症形成与发展的内在本质、确诊疾病类型以及研究相关的诊疗方案提供了强有力的信息和依据。DNA微阵列数据的分类研究也已成为当前生物信息学领域内的一个焦点,亦有许多数据挖掘和机器学习技术被广泛应用于该研究领域,然而,受客观条件限制及人为因素的影响,DNA微阵列数据都具有典型的高维度、小样本特征,并且含有大量无效或冗余的数据,这对传统的数据挖掘和机器学习算法提出了新的严峻挑战,如何有效地降低数据的维度、缩小数据的规模,发掘出对疾病起决定作用的基因信息成了算法研究过程中亟待解决的主要问题。因此,设计有效的基因特征选择方法和分类模型是解决此类问题的关键,这也对提高癌症诊断的准确性及其效率具有十分重要的意义。为此,本文围绕特征基因选择和分类模型优化设计这两个方面展开研究,并基于目前在求解优化问题方面具有一定优势的人工蜂群算法以及非常适用于解决高维、小样本模式识别问题的支持向量机分类算法的基础上,对DNA微阵列数据分类问题的解决方法进行了探索,且提出了可有效处理该问题的基于改进人工蜂群算法的基因选择和支持向量机参数的同步优化方案。本文的主要研究工作可概述如下:1.联合混沌理论和鲶鱼效应改善人工蜂群算法。借助混沌序列的高随机性及非周期的遍历性增强初始蜜蜂种群多样性的同时,结合由混沌理论及鲶鱼效应衍生的混沌鲶鱼蜂对原蜂群造成的有效竞争协调机制,实现打破蜂群停滞局面、提高算法收敛性能的目的。2.凭借混沌鲶鱼蜂群算法探寻支持向量机的最优参数。惩罚因子C和核函数参数是支配支持向量机学习能力的两个关键因素,通过使用所提出的混沌鲶鱼蜂群算法对支持向量机的这两个核心参数实行优化,可以更好地提升支持向量机对未知对象的预测准确率。3.提出一种基于混沌鲶鱼蜂群算法的特征基因选择与支持向量机参数同步优化模型。首先,利用角调制技术将连续型混沌鲶鱼蜂群算法转换成离散的二进制形式,用来对原始基因数据进行特征筛选,获得有效的基因子集;然后,在所选出的有效子集的基础上,利用原混沌鲶鱼蜂群算法对分类器进行参数寻优,以保证对不同的基因子集都能找到最适当的建模参数,从而实现大幅度提高癌症分类准确率的目标;最后,本文通过借助6个公开的DNA微阵列数据集对上述同步优化的分类策略完成了仿真实验,其结果表明,该方案在癌症类型判别的准确性和效率上都具有一定的优势。