论文部分内容阅读
当代人们的生活不断出现快生活,更便利的口号。人们的日常生活越来越便利,还不断地产生各种各样的数据。这些数据就汇聚成了能反映现实世界的数据海洋。为了充分发挥其蕴涵的价值,就需要可用且有效的数据挖掘技术进行数据分析,聚类分析就是其中一种。不管是隐藏在数据中的商业价值还是学术研究价值,都可以用针对性不同的聚类算法挖掘出来。目前,如果在直接可观的低维数据空间进行分析,已经存在许多使用传统聚类方法的算法模型能满足问题要求和用户需求。但是,在许多实际场景的应用中,收集到的数据逐渐表现出高维度性和非高斯性等现代数据特征。因此,现有的传统聚类方法已经无法满足聚类分析的要求了。而深度学习的出现给这个难题带来了解决思路,它可以发现复杂数据中存在的隐藏结构,并推动模型自动迭代更新参数以优化模型。因此本文将深度学习中的无监督生成模型变分自编码与混合模型相结合用于聚类研究,不仅实现对数据特征的自动提取,还可以在一定程度上避免发生维度灾难。本文将混合模型嵌入变分自编码框架中,提出两种无监督聚类方法:(1)基于变分自编码和学生-T混合模型的无监督图像分类此方法针对基于变分自编码的传统聚类算法,其网络特征损失过大不能有效提取潜在的,分层的特征表示;基于高斯混合模型的聚类算法,其对于数据中存在的离群点敏感,不能准确地描述具有重尾特征的数据。针对以上两个问题,本文改进传统的变分自编码网络结构,结合卷积神经网络实现层级特征提取,并且利用学生-T分布构建基于变分自编码的混合模型做聚类工作;(2)基于变分自编码和狄利克雷混合模型的无监督聚类分析在研究的进程中,本文发现基于混合高斯模型和(1)中提出的学生-T混合模型的聚类算法,不能适应于有界数据的描述与拟合;原始变分自编码中使用的基于高斯分布簇的重参数技巧是不能适于狄利克雷分布的,针对以上两个问题,本文利用灵活且易用的狄利克雷分布构建基于变分自编码的混合模型来适应有界数据拟合的需求。对于使用的狄利克雷分布本文开发一种新的重参数技巧使得算法可以满足变分的要求,从而得到可用有效的模型。