论文部分内容阅读
图方法因其可以计算和保持数据内在关系的特性相较于原始数据可以展现出更强的表达能力,所以被广泛应用到不同的领域中。尤其是在机器学习领域中,图的结构保持性质可以保证在学习过程中获取更多有效信息的情况下保持数据的原始结构不变。而在不同的图结构保持方法中,图的局部近邻关系保持方法已经在谱属性选择算法和谱聚类算法中得到应用。不过,先前图局部邻域关系保持方法的局部结构构造方式仅依赖欧式距离来衡量空间中样本相似关系,一旦数据中存在噪音或冗余则会影响建立后的图矩阵的质量从而进一步影响最终的机器学习模型学习效果。因此,本文将针对现有图学习存在的问题,利用两种不同的改进策略来分别提出两种能够建立更高质量图矩阵的方法并利用这两种新方法分别提出更加有效的基于图学习的机器学习算法。论文的主体部分为下述内容:(1)基于局部协方差和正则化的谱聚类算法(LCSC算法)。LCSC算法将结合图学习、局部协方差和数据正则化来提出一种高效的谱聚类学习模型。此算法通过引入样本的局部协方差矩阵来解决单一欧式距离度量可能带来的簇交叉问题,并使用正则化方法归一化样本的相似性量级从而达到提升聚类算法准确率的目的。具体地,LCSC首先在传统聚类算法中添加样本协方差矩阵间距离作为补充判断条件提升相似性矩阵的质量,然后使用正则化方法平衡获得的矩阵元素的量级,最终获得一个更加精确的谱聚类算法模型。通过聚类实验评测,LCSC算法在真实数据集上相较其他聚类算法获得了更好的效果。(2)基于谱旋转策略的动态谱属性选择算法(DFS-SR算法)。DFS-SR算法将结合谱旋转方法、图学习及稀疏学习技术,提出一种鲁棒的谱属性选择算法模型。此算法结合自表达图学习、稀疏学习及谱旋转方法来提升属性选择算法在处理真实数据上的性能。具体来说,算法首先利用基于自表达的图学习方式替代传统的基于欧式距离的图学习方式获得高质量的图矩阵;然后添加谱旋转方法通过真实数据标签微调原始数据矩阵的投影方向实现进一步提升模型学习质量的目标;最后在模型中添加具有组稀疏效果的稀疏正则化范数——l2,1-范数从而实现最终的属性选择效果。经聚类实验验证,该算法较对比算法能取得更好的效果。本论文首先针对传统机器学习算法中谱属性选择算法及谱聚类算法依赖基于单一欧式距离的数据局部结构保持方法可能会造成的在学习过程中获得的图矩阵质量不佳的问题进行改进提升。然后通过真实数据实验来评估所提出方法和所有对比算法,其中所有属性选择算法将采用经典聚类算法K-均值算法作为属性选择效果的评测途径。此外,为进一步验证提出算法的正确性和有效性,论文采用多个评价指标对所提出的算法结果进行验证分析,并且文中所有算法将采取统一的实验条件进行测试。最终实验结果显示本论文提出的新算法均优于选取的同类算法。在未来的工作中,本人会考虑将提出的图学习改进方法直接应用到分类、回归或者更多真实应用场景当中。