论文部分内容阅读
肿瘤是影响人类健康的主要的疾病。而基因微阵列和蛋白质质谱等生物技术的出现为疾病的诊断和治疗提供了新的方法,开辟了新的途径。但由于数据具有高维、小样本等特性,常规的模式识别方法已不再适用。针对此类数据,如何剔除冗余特征、如何从海量的数据中挖掘出隐藏在数据背后的有用的生物信息成为研究识别和分类问题的关键。而目前常用的特征识别方法根据子集获取的方式,可以分为基于随机搜索和非随机搜索策略的特征选择算法;从机器学习角度,特征选择算法又可以分为:过滤法和缠绕法。过滤法独立于分类器,分类精度无法保证;缠绕法在挑选过程中需要反复调用内嵌分类器以评估基因的分类性能,造成极高的计算量。除此之外,数据的高维、高噪声的特点增加了过拟合的风险。近年来,Micha Draminski等人结合随机搜索策略和决策树,提出Monte Carlo featureselection(简称MC)算法,它是一种随机搜索的特征选择算法,不仅降低了搜索时间,而且避免结果陷入局部最优的风险,对高维数据具有较强的适应性。MC算法中所用的判别准则—决策树,它综合考虑了分类率及变量的重要性,避免过度依赖分类率,使得最终结果对于不同的分类器具有较强的鲁棒性;决策树中所用的判别指标不同于传统单纯的分类率,其可以减低样本不平衡问题所造成的影响。但是,MC方法在搜索变量空间过程中没有合理规划,并且不同的迭代间相互独立不相关,没有相互的“通信”,没有合理利用历史成绩和当前排名,造成搜索效率低,结果受随机次数影响较大。在MC算法基础上,结合职业网球选手排名机制,提出基于职业网球选手排名的基因随机选择算法(Feature Selection Algorithm based onProfessional Tennis Players Ranking, PTPR)。PTPR算法保留了MC算法的精髓,即随机选择及决策树判别,同时借鉴职业网球赛的排名机制,引入了“种子变量”、实时滚动更新排名,优化了搜索过程,提高了搜索效率,保持了结果稳定。在迭代过程中,PTPR算法不同的迭代间,通过“记忆”列表,实现了“信息互通”,利用当前最优变量更新种子变量并排名,然后在下一次迭代中对种子变量的性能进行重新的评估,重新提取当前最优变量,如此迭代循环,直至达到最终可接受范围的最优解。在搜索变量的同时,对已发现的变量“记忆”,在下一次迭代中对其重新验证和评价,不仅提高了搜索效率,而且最终所得的最优变量是多次评估的结果,而非单调一次循环所得,体现了公平公正原则。通过在Leukemia、Colon、Glioma、Prostate、Lung和Ovarian数据集上从四个不同的角度对PTPR的性能进行了评估,即变量排名的收敛性、变量的重复率、样本的分类率及AUC。通过变量排名的收敛性和变量的重复的实验中可以看出,PTPR算法相对于MC算法,变量排名变化幅度明显低于MC,并以较少的迭代次数收敛到稳定的变量排名,并且PTPR多次实验所得到的结果相似性明显高于MC,受外界因素影响较小。通过分类率和AUC实验表明,PTPR所得到的特征变量在独立的测试集上获得了较高的分类,并保持稳定,而MC却动荡变化。综上可知,PTPR算法在搜索变量的过程中,能够快速有效的收敛到稳定的变量排名,在不同的数据集上所得到的变量集合在不同的分类器上保持了较高的分类率。