论文部分内容阅读
机器学习在高维数据种的应用非常广泛,同时也存在许多问题。高维数据如何降维,存储,分析和管理都是机器学习任务种经常遇到的问题,本文研究和扩展现有哈希降维与K均值聚类模型,提出新的哈希算法对哈希函数构造中通常没有考虑数据相似结构的问题和高维数据的聚类算法存在的一些问题进行研究。具体地说,(1)提出了一种基于PCA的方差旋转哈希算法(Principle Component Analysis Rotation Hashing Algorithm,PCAR)。哈希算法由于能将高维数据编码为二进制字符串而被广泛的应用于高维数据降维问题,但是现有的哈希算法仍然存在如下问题:(i)、传统的哈希算法采用固定的数学公式构造哈希函数,无法对数据拟合,因而无法获得好的哈希效果;(ii)、现有哈希算法通常分别学习哈希函数与二值化阈值,过程繁杂容易造成误差;(iii)、已有一些改进的哈希算法没有同时考虑数据的全局与局部的结构信息。因此,本文第三章提出的PCAR算法结合了PCA(主成分分析)和流形学习来解决传统哈希算法通常只考虑一种结构的不足。详细地说,PCAR算法利用PCA(主成分分析)保留数据的整体相似结构,同时结合流形学习保留数据的局部相似结构。在真实数据的模拟实验中,PCAR算法比常见的AGH、DSH、KLSH、LSH、MDSH、SGH、PCAH算法效果要好。提出的基于PCA与流形学习的目标函数不但考虑了数据的局部结构,也同时考虑了数据的全局结构,因此在一定程度上改进了原有哈希框架,丰富了现有哈希框架同时也扩充了其应用范围,即提升了哈希算法在高维数据检索与分析上的性能。(2)提出了一种基于自步学习的聚类算法(Self-paced Learning for k-means Clustering Algorithm,缩写为SPKC)。聚类算法是机器学习算法中的一种关键算法,然而现有的K均值聚类存在一些不足:(i)、聚类结果对噪声样本与离群样本非常敏感,容易造成较大误差;(ii)、k值得选取对聚类结果的影响非常大,鲁棒性较差;(iii)、由于求解传统的K-means聚类得过程是非凸优化问题,常常容易陷入局部最优解。因此,本文提出了一种引入自步正则化项得聚类算法来解决上述问题。先将K-means聚类转换为矩阵分解的问题,在此基础上加入自步正则化项,通过自步正则化因子将样本进行排序。从而模拟人类学习过程从易到难加入样本至模型中进行训练。在真实数据实验上,本文提出的SPKC算法比K-means、K-means++、ISODATA、FCM、方法效果要好。提出的基于自步学习的K-means聚类算法在一定程度上丰富了现有聚类模型框架,同时也将自步学习技术推广应用于高维数据聚类方面。本文对机器学习领域中的哈希降维算法关于如何结合保留局部与整体相似结构和高维数据的K均值聚类模型的改进两个方面进行了研究,即首先使用PCA(主成分分析),流形学习,自步学习改进哈希与聚类两个方面现有算法存在的不足,提出了两种改进的机器学习算法。本文中的研究的每种算法都使用了真实的公开数据集与对比算法进行实验对比和分析,本文提出的两种算法在多个评价指标下优于现有的常见算法。