论文部分内容阅读
近几年以来,随着现代科学技术的飞速发展,数据量呈现一种爆炸式增长。而伴随数据量增长的同时,数据中包含的不相关和冗余信息也增多,给已有的机器学习算法带来了严峻的挑战。因此,迫切需要适应海量数据的准确性和运算效率等综合性能较好的特征选择方法。为此,本文对高维数据的特征选择展开了进一步的研究。首先,针对现有特征选择方法中基于不同的类间散度和类内散度的特征权重度量方法的缺陷,我们提出一种新的度量特征权重的函数,这种度量具有一定的泛化特征。并进一步讨论该形式与其它基于类间散度和类内散度准则的特征权重度量的关系。其次,针对现有特征选择方法中相关性和冗余度评价方法缺乏多样化以及最佳特征个数难以确定的问题,本文提出基于最大平均权重最小平均冗余准则的特征选择方法(MAWMAR方法)。一方面,在特征权重计算过程中采用一般化的特征权重评价函数,使得特征选择过程中不仅便于理解和分析,同时适用于处理半监督和有监督的问题。另一方面,通过建立最大化特征相关性和最小化特征间冗余信息的分式规划模型,该方法不仅有效地权衡了特征相关性和冗余性这两个相互冲突的目标,同时实现了最优特征个数的选择。实验结果表明MAWNAR比其它特征选择方法得到了更小更优的特征子集。再次,针对基于最大平均权重最小平均冗余准则的特征选择方法容易受特征个数的影响,本文提出基于最大总权重最小冗余准则的特征选择方法(MaToWMiR方法),该方法综合考虑了特征相关性和特征间冗余性进行无关冗余特征的剔除。MaToWM,MiR不仅保持了使用一般化的特征权重度量的优点,同时降低了特征个数对特征选择的影响。实验结果表明MaToWMiR有效地去除了无关冗余特征,降维的同时提高了分类精度。最后,为了考察MAWMAR和MaToWMiR的应用范围,对两种方法下的模型做了对比分析。首先,利用分支定界法求解MAWMAR和MaToWmIR方法下的模型,通过比较分类准确率和选择出的特征个数,说明了两种方法在不同的数据集上具有各自的优势,同时分析了影响上述结果的主要原因。其次,针对精确算法计算效率低的问题,利用求解精度较高的遗传算法求解模型。数值实验表明,不论是利用分支定界法还是遗传算法求解,MAWMAR和MaToWMiR在具有相似特点(例如相似的特征权重分布和冗余度分布)的数据集上占有相同的优势。