论文部分内容阅读
随着计算机技术的日益发展,在各个领域中所采集的数据集规模不断增大,特别是高维数据中存在的大量冗余和无关特征给机器学习带来了巨大的挑战。特征选择是为了解决高维度数据计算问题而衍生的,通过剔除冗余特征和无关特征,提高机器学习算法的泛化性能和运行效率。随着研究的深入,特征之间复杂的相互关系对机器学习算法的影响被逐渐地认识到,如何在特征选择过程中识别和保留具有交互关系的有益特征组合,是目前仍未很好解决的难题。本文主要致力于辨别特征相互作用中冗余和依赖关系,研究能够选择出高度相关、内部依赖和低度冗余特征子集的Filter特征选择算法。提出了基于Banzhaf权利指数的特征评估及选择算法、基于Shapley值的特征选择算法优化方法和基于动态加权的特征选择算法。针对基因表达数据在疾病诊断中的应用问题,提出了基于动态相关性分析的基因选择算法。在公开测试数据集上的实验结果表明本文提出的这些算法均能获得良好的性能,达到了预期的效果和目的。