论文部分内容阅读
目的:在多分类的高维基因表达谱数据的处理与分析中,探讨特征基因的筛选方法,通过构建基于交叉验证的BP神经网络进行分类预测,为高维组学数据的方法学研究和BP神经网络的实际应用提供科学依据。
方法:本研究利用Khan等人收集的83个样本6567个基因的小圆蓝细胞瘤基因表达谱数据进行研究,根据高维组学数据的特点,采用统计学和计算机相结合的技术,参考Golub等人对二分类数据的特征基因筛选方法,通过计算每个基因的PS值,对本研究中的四分类问题进行特征基因的筛选;构建基于交叉验证的BP神经网络,利用遗传算法对网络进行优化,并提出了改良的交叉验证算法,对比改良前后的分类效果差异。
结果:通过计算每个基因的PS值,共获得144个特征基因,与Khan等人基于3750个线性神经网络所筛选的96个特征基因吻合上了20个。在构建BP神经网络的过程中,将83个样本分成两部分,其中63个样本用于网络的训练过程,另外20个不参与训练而作为独立样本集用于后期的外部验证,因Khan等人所建立的96个特征基因的线性神经网络对83个样本的的亚型分类完全正确,因此,本研究也利用他们所选择的96个特征基因,通过10次和20次的3倍交叉验证过程,得到网络的内部验证和外部验证的正确率至少都超过了85%,说明所构建的网络具有较好的应用价值;然后,针对利用PS法所选择的144个特征基因,分别进行10次改良和270次未改良的3倍交叉验证过程,各自产生810个分类器,改良前内部验证的整体正确率和外部验证的正确率分别为97.19%和85.78%,改良后的分别为95.22%和76.86%。
结论:本研究所提出的多分类数据特征基因筛选的PS算法,计算简便且效果良好,利于操作和实现,为基因表达谱数据的降维提供了新的思路;BP神经网络与线性神经网络相比有其优势,但在特征基因筛选结果很理想的情况下,其优势并不明显,且线性神经网络构建得好其预测效果也会足够良好;遗传算法可以用来优化BP神经网络,算法中参数的设置可直接影响到优化效果,对于高维数据来说该方法的优化过程更为复杂;改良的交叉验证算法可保证有更为充足的分类信息,但如何能够实现真正意义上的“改良”,还有待于进一步完善方法。