论文部分内容阅读
从肿瘤基因数据的角度识别不同亚型的肿瘤,不仅可以与传统形态学上的肿瘤进行对照、辨别,还能够理解肿瘤的产生机制,最终对肿瘤的病理转变提供积极的诊断建议;对肿瘤基因数据集进行分析处理,进而采用模式识别方法判别肿瘤的良性、恶性类别,是目前肿瘤基因数据的重点研究内容之一。针对肿瘤基因数据集属性多维性特点而导致分类效果不佳的难点,提出了一种基于逆向传播(Back Propagation,BP)神经网络的肿瘤数据分类方法,该方法的侧重点:1)如何高效率的删除噪声数据和冗余特征集合,提取出少量的和有价值的发病基因集合作为BP神经网络(BPNN)的特征输入,以此简化神经网络的输入结构和加快收敛的速率;2)如何避免BPNN在优化网络权重和阈值过程中易陷入极值的状况。针对问题1,提出了一种基于随机森林和邻域粗糙集(Random Forest and Neighborhood Rough Set,RFNRS)的复合型特征选择方法;该方法从特征选择的角度筛去原始高维特征集合中的噪声数据和冗余特征属性集合,首先利用Relief系列算法预处理肿瘤基因数据集,然后使用基于随机森林的封装式特征算法删除冗余的特征属性集合,最后利用邻域粗糙集的前向搜索获取最简、最优集合。经过6种肿瘤基因数据实验,该特征选择方法可以较快的筛选出不相关的属性集合,十折交叉验证后的识别精度以及处理速率均得到有效的提高;针对问题2,将人工智能算法中的思维进化算法(Mind Evolutionary Algorithm,MEA)引入进来构造了MEA-BPNN模型,利用MEA中的趋同算子在子群体的范围内寻找最佳的个体解,利用异或算子保证全局空间中最佳个体解;在不同肿瘤基因数据集上进行对比验证,证明了MEA-BPNN的分类精度优于传统的BPNN和GA-BPNN算法。综上所述,根据处理肿瘤基因数据集的难点以及BPNN识别建模中的不足,提出一种复合型特征筛选方法RFNRS并引入了智能算法MEA,一方面RFNRS可以快速选择出合适的致癌基因,降低BPNN的网络训练时间,提升BPNN的学习效率,进而提高识别精确度;另一方面通过MEA改善BPNN的网络权值和阈值,进一步提高了BPNN的分类性能;该方法对肿瘤基因数据集的识别研究具有一定程度的理论指导和实际应用价值。