论文部分内容阅读
随着互联网的高速发展,数据趋向于具有高维化和多量化的大数据,这给数据挖掘和学习算法在文本分类,基因工程,计算机视觉等的应用带来了巨大挑战。由于数据维数和样本数的大幅度增加,会产生大量无关和冗余的数据特征,造成“维数灾难”和“过拟合”问题,不仅会降低机器学习、数据挖掘的性能而且会增加运算的时间复杂度和空间复杂度。因此数据降维成了数据处理中的一项重要工作。而特征选择是从原始数据集中剔除冗余和不相关的特征,并且不改变数据的物理特性,是数据降维的一种有效手段。特征选择可以从原始数据中获得最具代表性,最有研究价值的数据特征子集,从而提高机器学习、数据挖掘等的性能,降低运算的时间复杂度和空间复杂度。本文针对高维数据下的有监督特征选择方法和无监督特征选择方法分别提出了改进的方法。1.针对高维大数据下的有监督特征选择时间复杂度高的问题,提出均分式1L/2正则化的稀疏表示特征选择方法,降低运算时间复杂度的前提下,提高了数据的分类准确率。该方法将数据特征均分为K份,先对每份进行1L/2正则化特征选择,并用half阈值迭代算法解决1L/2正则化问题,再将数据合并,进行1L/2正则化特征选择。该特征选择方法具有稀疏性好,时间复杂度小的优点。实验表明,均分式/1L2正则化特征选择方法在高维和低维数据中都降低了特征维数,而且获得了较高的识别率,这是一种有效的有监督特征选择方法。2.针对高维大数据下的无监督特征选择方法在计算特征间相关性的时候时间复杂度高的问题,结合特征自表示和贪婪算法提出一种基于贪婪选择策略的特征自表示方法,以去除冗余和不相关特征,考虑了特征间的相关性,同时降低了运算的时间复杂度。该方法将数据特征集中的每个特征用其他特征线性表示,构建特征自表示模型,并使用计算复杂度低的贪婪算法解决该问题。实验表明,基于贪婪选择策略法的特征自表示特征选择方法相较于其他无监督降维方法,降低了时间复杂度的同时,提高了聚类的准确率,这是一种有效的无监督特征选择方法。