论文部分内容阅读
随着数据信息化的日益发展,人工地从数据中筛选出需求的信息已经变得十分困难,为此研究者以统计学思想为基础提出了机器学习方法,而其中分类、聚类和回归分析等知识发现方法更是获得了较为广泛的应用。但原始数据中可能存在的冗余及偏差信息会导致知识发现算法难以获得预期的结果,因此预先对数据进行必要的处理在机器学习领域的研究中同样十分重要。以属性选择算法为代表的数据预处理技术被提出用来从从原始数据中提取出更加重要及“纯净”的信息。基于训练方式的不同,传统的属性选择方法可以被分为三类,即过滤式、包裹式及嵌入式。由于嵌入式方法将属性选择过程与训练过程融为一体,因而可以在优化过程中实现自动选择属性的效果,已经被研究证明优于过滤式方法和包裹式方法。然而,传统的属性选择方法虽然能够在一定程度上降低原始数据的维度并提升后续知识发现模型的学习效率,但仍然难以满足现阶段数据尺寸高速膨胀的状况。这是由于处理高维数据的困难不仅仅只源于数据中样本的数量及维度的增长,而是应对伴随着增长而带来的大量冗余、噪音以及离群点等难题。因此,本文以传统嵌入式属性选择模型为基础结合自步学习、低秩学习及谱图学习理论提出三种更加鲁棒的属性选择算法来应对高维数据存在的不同问题。论文的主体内容分为如下部分:(1)基于自步学习的无监督属性选择算法(UFSSPL算法)。UFSSPL算法将结合自步学习、稀疏学习和属性自表达技术,提出了一种无监督属性约简模型。此算法利用属性自表达实现无监督学习并使用自步学习解决传统属性选择算法忽略样本之间的差异性从而导致模型易受离群点干扰的问题。具体地,UFSSPL首先自动选取一个重要的样本子集训练得到属性选择的鲁棒初始模型,然后逐步自动引入次要样本提升模型的泛化能力,最终获得一个同时具有鲁棒性和泛化性的属性选择模型。通过聚类实验评测,UFSSPL算法在真实数据集上相较其他属性选择算法具有更好的效果。(2)属性自表达的低秩无监督属性选择算法(LFSR算法)。LFSR算法将结合低秩学习、谱图学习、属性自表达及稀疏学习技术,提出一种鲁棒的低秩谱属性选择模型。此算法结合低秩学习与谱图学习技术处理传统无监督属性约简方法难以深入探索数据内在结构(即全局结构和局部结构)从而导致属性选择效果有限的问题。具体来说,LFSR算法首先用一个属性自表达损失函数加上一个稀疏正则化(?2,1-范数)实现无监督学习与属性选择,然后使用低秩学习和谱图学习同时考虑数据的全局结构和局部结构来降低冗余与噪音的影响。经聚类实验验证,该算法较对比算法能取得更好的效果。(3)基于动态谱图学习的谱属性选择算法(DGSFS算法)。DGSFS算法将动态谱图学习、稀疏学习融入到回归模型中,提出一种鲁棒的动态谱属性选择模型。此算法针对传统谱属性选择方法中从原始数据构造的谱图矩阵容易受到原始特征空间的冗余及噪音影响的问题。具体地,DGSFS算法首先利用有监督回归模型与组稀疏?2,1范数实现属性选择基本功能框架,并在已建立的框架中添加谱图学习理论动态地从原始数据的低维子空间中挖掘数据内在局部结构并实现一步属性选择策略。经过分类实验验证,该算法获得了更好的属性选择效果。本论文针对传统属性选择模型存在的不足对属性选择进行鲁棒性改进研究,并通过分类或聚类算法作为实验的评测途径使用不同评价指标对结果进行分析。同时,为验证提出算法的正确性,论文中所有算法均严格按照统一实验环境进行验证和分析。实验结果显示本文论文提出的新算法在各项指标均优于选取的对比算法。在未来的工作中,本人将考虑把这些技术直接应用到聚类、分类或回归算法中。