论文部分内容阅读
传统的特征选择算法直接在有类别标签数据集上进行特征选择,以选取对这些已知类别标签样本的类别具有最大区分能力的特征子集。但是在一些实际应用中,如在医学诊断、欺诈检测等领域,样本的类别标签通常不能很容易地获取。在这种情况下,训练数据可能存在有类别标签样本不足或者样本分布存在偏差等问题。此时,根据训练集上的数据所构造出的模型可能无法正确地反映真实数据分布。但另一方面,无类别标签数据通常都能大量地获取,并且它们一般都是比较接近真实数据分布的。半监督学习方法就是为解决这类问题而产生的机器学习方法。半监督特征选择只需要很少量的有类别标签样本,同时利用大量的无类别标签样本来进行特征选择。半监督特征选择的任务是当给定一个学习算法时,同时利用有类别标签数据和无类别标签数据找出一个能使学习算法达到精度最高的最优特征子集。
本文提出一种迭代式的基于置信度预测的半监督特征选择算法框架。在算法的每一次迭代中,原始的有类别标签数据和通过一定手段精心选取的无类别标签数据及其预测标签将被用于特征选择过程。对于无类别标签数据的选取我们采用了置信度的方法,这将保证所选取的数据将有较高的概率保证它的预测标签是正确的。因为我们引入了无类别标签数据,所合成的数据集更能反映真实的数据分布,因此在该合成的数据集上能选取到更好的特征子集。
本文在通过形式化分析、复杂性分析、合成样例分析和实验分析等方法对基于置信度预测的半监督特征选择算法进行了深入的研究。从理论分析和实验分析的结果来看,基于置信度预测的半监督特征选择算法(SemiFS_CP)是一种解决在有类别标签数据不足的情况下特征选择问题的有效方法。在大量公开数据集上的实验表明,我们所提出的算法能比其他只用有类别标签数据做特征选择的完全有监督算法,或其他的半监督特征选择算法在精度上高出1%到10%不等。当原始的有类别标签数据量特别小的时候,我们的算法能取得更高的精度提高幅度。