论文部分内容阅读
特征选择是机器学习和数据挖掘领域中实现数据降维和数据清理的有效方法之一.针对现有相关性度量方法不能直接度量混合特征(连续特征与离散特征)之间相关性的问题,将连续特征的特征值按照离散特征取值相同的原则进行分组,通过分组前后的数据变异性来度量混合特征之间的相关性.在度量连续特征与类别之间相关性的基础上结合类别区分互补性方法进行特征选择.在UCI数据集上的实验结果表明,提出的混合特征相关性度量方法是有效的、可行的.相比于几种经典的特征选择方法,提出的特征选择方法在特征约减效果及分类性能上都具有优势.