论文部分内容阅读
随着分子生物领域的发展,基因芯片技术得到快速提高,基因表达谱数据的获取已经变得越来越方便、可靠。但样本数量小、维数高、基因间关系复杂、信噪比低等特性给基因表达谱数据分析带来了很多新的困难。本文以特征基因选择问题为研究内容,基于现有的特征选择方法,开展了如下工作:
1.分析了现有特征基因选择方法的优缺点。Filter方法简单快速但分类精度不高;Wrapper方法和Embedded方法分类精度高但算法复杂度过大。因此,目前越来越多的研究注重这三类方法的综合,提出了Filter-Wrapper方法和Filter-Embedded方法。本文采用此思想,提出两种基于Filter、Wrapper和Embedded方法综合的特征基因选择方法,充分发挥了上述三类特征选择方法的优点,达到较好的分类效果。
2.分析比较基于递归特征消除的RF-RFE算法和SVM-RFE算法。现有的研究大多采用支持向量机、神经网络等作为分类器。随机森林具有优越的分类性能,逐渐被广泛使用。本文对随机森林进行研究,通过RF-RFE算法和SVM-RFE算法的比较,验证了随机森林对基因数据分析的有效性。
3.提出QPSO-RF特征基因选择方法。采用启发式搜索算法和分类器进行封装是当前研究的一个方向。本文定义了一个带有调节分类准确率和特征子集大小的平衡系数的适应度函数,采用量子粒子群算法作为启发式搜索算法,与随机森林分类器进行封装进行特征基因选择,该方法可在选出较小特征子集的同时取得较好的分类效果。
4.提出基于Proximity矩阵差异性的特征基因选择方法。已有的随机森林算法对OOB数据的分类准确率变化有时并不敏感,无法准确地反映特征的重要性。本文在分析了随机森林的Proximity矩阵对模型参数的鲁棒性和对特征变化的敏感性的基础上,利用Proximity矩阵差异性进行特征选择。实验结果表明,其性能优于已有的基于OOB数据分类准确率估计的特征选择方法。