论文部分内容阅读
随着信息技术的飞速发展尤其是互联网的广泛应用,各种类型的数据资源与日俱增。如何从浩瀚的“数据海洋”中发现有用的知识成为亟待解决的公共难题,引发了学术界和工业界的广泛关注。为处理海量数据,本文对主动学习、特征选择、联合聚类、在线学习等大规模机器学习技术进行了研究和探索,创造性地提出了一系列机器学习算法,并成功应用于人脸识别、图像分类、生物信息学等领域。主要工作包括:为了减少数据标注的代价,本文提出了一种基于局部线性重构的主动学习算法,能够根据数据空间的局部流形结构选择最具代表性的样本。我们假设每个样本及其近邻组成了一个局部线性块,因此每个样本都可以通过它的近邻线性重构。给定各个样本的局部重构系数和一些样本的坐标,本文提出了局部线性重构算法来重构整个数据集。最具代表性的样本被定义为那些能够最准确地重构整个数据集的样本。由于数据重构算法满足局部线性的约束,这样选择的样本能够保持数据空间的局部流形结构。为了降低数据的维度,本文提出了一种无监督的判别性特征选择算法,旨在找出最能保持聚类结构的特征。由于缺乏标注数据的指导,本文依据判别性聚类的效果衡量特征的质量。具体而言,我们采用一个线性函数来建模特征选择后的数据矩阵和聚类指示矩阵之间的关系。可以证明,该函数的拟合误差依赖于选择的特征和聚类结果。将拟合误差作为目标函数,判别性特征选择算法要求最优的特征能够最小化拟合误差。为了发现不同类型数据之间的关联,本文提出了一种局部判别联合聚类算法,同时对样本和特征进行聚类。为了保持样本和特征之间的关系,局部判别联合聚类算法建立一个包含样本和特征的二分图,要求聚类的结果关于图尽可能地平滑。通过应用局部线性回归模型,局部判别联合聚类能够发现样本空间和特征空间的内在判别结构。为了保持样本之间、特征之间的内部关系,我们寻找能够最小化局部线性回归拟合误差的聚类。这样,局部判别联合聚类能够将相关的样本和特征聚在同一类,同时能够反映数据空间和样本空间的局部判别结构。为了降低核学习的计算复杂度,本文将在线学习应用到核逻辑回归模型。首先,我们根据随机梯度下降法得到一种非保守的在线学习算法。该算法在每一个训练样本到来时都会更新当前的核分类器,导致模型训练和测试的复杂度不断增加。为了生成稀疏的核分类器,本文进一步提出了两种保守在线学习算法来优化核逻辑回归。在每一个训练样本到来时,我们引入一个伯努利随机变量来决定是否更新当前模型。通过设定合适的概率分布,该算法在遇到难以区分的样本时更新的概率较大,反之更新的概率则较小。理论分析表明,这样得到的稀疏核分类器的泛化能力与稠密分类器的泛化能力类似。为了高效地求解相关的优化问题,本文应用了贪心方法、谱分析、凸松弛、随机梯度下降等优化技术来降低计算复杂度,提高算法的可扩展性。在实验中,本文将所提算法分别应用到人脸识别、图像分类、图像码字选择、文本和基因数据联合聚类、大规模在线分类等实际问题中,与其他算法进行了详细地对比,验证了算法的有效性。