论文部分内容阅读
随着社会日新月异的发展和科技的不断进步,人们通过互联网进行的信息交互越来越频繁,随之而来的是数据的爆炸式增长,如何准确高效的挖掘大数据中的有效信息逐渐成为人们关注的热点。不断增加的数据维度和规模带来了“维度灾难”、高计算复杂度、数据冗余以及昂贵的标签获取代价等问题。因此特征选择、半监督学习和无监督学习逐渐进入人们的视野。而且从单一的视角来分析问题往往是有局限性的,如果可以从多个视角来观察同一事物,并给出综合的评估,可以极大提升数据挖掘的有效性。以上述问题为切入点,本文着眼于事物的多面性以及关注数据的子空间结构信息,做出了如下工作和贡献:1.本文在第三章中提出了一种新的多视角无监督特征选择算法,该方法可以学习投影矩阵的全局稀疏解,并且通过使用一组用于评估特征重要程度的比例因子来调整最小二乘回归的回归系数,最终将比例因子嵌入到投影矩阵中,从而扩展了最小二乘回归模型。比例因子的引入为可以使用投影矩阵进行特征排序给出定义并提供了理论上的解释。参考特征权重比例因子的嵌入,同时可以将视角权重嵌入到投影矩阵中,使其对回归系数进行调整,实现对不同视角数据重要程度的度量,并且可以在优化出投影矩阵的同时自动获得特征权重和视角权重,从而通过引入一个新的稀疏正则项降低模型复杂度提升模型稳定性。由于从任意视角来评估样本并不会改变样本之间的类别信息,本文使用样本自表征的形式,利用样本自表征矩阵来构建无监督多视角学习中各视角之间的联系实现无监督学习。为了优化新模型,本文提出了一种简单有效的收敛算法,在求解过程中获取相邻样本数目k避免了预先设置k的麻烦。通过对特征选择后的数据进行聚类来与多个当前优秀的特征选择算法进行对比,可以看出本文所提无监督特征选择算法在特征选择效果上的优越性。2.本文在第四章中提出了一种新的半监督自适应拉普拉斯支持向量机方法,并给出了其原始解,因为有研究表明支持向量机的原始解比其对偶解拥有更多的优势。与其他拉普拉斯支持向量机算法相比,本文还同时考虑了无标签样本的hinge损失来最大化不同类别的无标签样本之间的距离来提升支持向量机模型的分类性能和泛化能力。与此同时,本文所提方法将拉普拉斯矩阵与支持向量机同时训练来提升拉普拉斯矩阵的自适应性和准确性,并且引入原始解求解器来解决本文所提自适应拉普拉斯支持向量机问题。经过与多个优秀的半监督支持向量机算法对比的实验结果可以看出,本文所提半监督支持向量机算法拥有着良好的分类效果。