论文部分内容阅读
K-均值算法是聚类分析中最经典的算法之一,然而它也有很明显的缺陷:1)需要人为指定聚类个数k;2)聚类结果受初始中心点的选取影响很大;3)对图像数据的相似性度量选取很敏感;4)对图像数据的特征分布很敏感等。基于这些背景,本文针对K-均值方法和K-中心点方法的聚类个数估计、初始中心点选取、以及聚类过程中涉及到的图像相似性度量选取和深度图像特征提取等方面展开了研究。论文的主要贡献点包含以下几点: 针对聚类个数估计和K-均值类方法的初始点选取问题,本文提出基于局部密度峰值搜索的相关方法。局部密度峰值搜索方法基于新提出的局部密度计算函数以及新提出的局部判别性指标两个量化标准,从决策图和得分图两个角度给出直观和量化的确定聚类个数的方案。进一步地,本文提出基于局部密度峰值聚类的密度聚类算法,以及将局部密度峰值用于初始化K-均值类方法的初始中心点选取方法。实验表明,新提出的方法在估计类别个数和聚类效果两方面都优于同类的方法。 针对图像聚类中的相似性度量选取问题,本文提出基于流形学习和复数小波结构相似性的测地线-复数小波结构相似性距离。该距离度量能较好的满足“减少类内距离、增大类间距离”的需求,从而是一种对聚类友好的距离度量。 针对图像聚类中的特征提取问题,本文提出全卷积自动编码器模型和基于该模型的判别性提升聚类方法。全卷积自动编码器相对于传统的自动编码器训练速度更快,同时能提取到对聚类比较友好的特征。判别性提升聚类方法在全卷积自动编码器的特征提取模型上进一步联合学习该特征提取模型和软得分K-均值聚类模型,从而提取到更加有利于聚类的图像特征。实验结果表明,判别性提升聚类方法在基准数据集上能达到当前最优的聚类效果。 针对深度卷积网络模型用于图像特征提取的过程中面临的过大的存储空间需求、大规模的计算资源消耗以及大量的运行时间的问题,本文提出三值权重的神经网络模型用于深度卷积网络的加速和模型压缩。三值权重的神经网络模型相对于浮点数精度的模型可以做到16倍以上的模型压缩率,同时在分类精确度上几乎没有损失。另外,三值权重网络模型在训练和推断阶段相对于浮点数精度网络的乘法-累加运算可以大大的减少,从而是一种很有潜力的深度学习加速方法。