聚类分析和图像特征学习方法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:veteran_eng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
K-均值算法是聚类分析中最经典的算法之一,然而它也有很明显的缺陷:1)需要人为指定聚类个数k;2)聚类结果受初始中心点的选取影响很大;3)对图像数据的相似性度量选取很敏感;4)对图像数据的特征分布很敏感等。基于这些背景,本文针对K-均值方法和K-中心点方法的聚类个数估计、初始中心点选取、以及聚类过程中涉及到的图像相似性度量选取和深度图像特征提取等方面展开了研究。论文的主要贡献点包含以下几点:  针对聚类个数估计和K-均值类方法的初始点选取问题,本文提出基于局部密度峰值搜索的相关方法。局部密度峰值搜索方法基于新提出的局部密度计算函数以及新提出的局部判别性指标两个量化标准,从决策图和得分图两个角度给出直观和量化的确定聚类个数的方案。进一步地,本文提出基于局部密度峰值聚类的密度聚类算法,以及将局部密度峰值用于初始化K-均值类方法的初始中心点选取方法。实验表明,新提出的方法在估计类别个数和聚类效果两方面都优于同类的方法。  针对图像聚类中的相似性度量选取问题,本文提出基于流形学习和复数小波结构相似性的测地线-复数小波结构相似性距离。该距离度量能较好的满足“减少类内距离、增大类间距离”的需求,从而是一种对聚类友好的距离度量。  针对图像聚类中的特征提取问题,本文提出全卷积自动编码器模型和基于该模型的判别性提升聚类方法。全卷积自动编码器相对于传统的自动编码器训练速度更快,同时能提取到对聚类比较友好的特征。判别性提升聚类方法在全卷积自动编码器的特征提取模型上进一步联合学习该特征提取模型和软得分K-均值聚类模型,从而提取到更加有利于聚类的图像特征。实验结果表明,判别性提升聚类方法在基准数据集上能达到当前最优的聚类效果。  针对深度卷积网络模型用于图像特征提取的过程中面临的过大的存储空间需求、大规模的计算资源消耗以及大量的运行时间的问题,本文提出三值权重的神经网络模型用于深度卷积网络的加速和模型压缩。三值权重的神经网络模型相对于浮点数精度的模型可以做到16倍以上的模型压缩率,同时在分类精确度上几乎没有损失。另外,三值权重网络模型在训练和推断阶段相对于浮点数精度网络的乘法-累加运算可以大大的减少,从而是一种很有潜力的深度学习加速方法。
其他文献
本文对树上分布混沌的等价刻画进行了研究。文章指出,分布混沌的概念是由SCHWEIZER和SM(I)TAL在[Trans.Amer.Math.Sco.344(1994),737-754]中首先提出的,并证明了对区间映射而言
长期以来,多项式正定性的判定与配平方和问题一直是数学界讨论的热点。比如说,事实上在研究许多问题时候这些问题都可以用代数的语言来表达出来,从而问题都可被化为代数的问题来
特征值问题在众多科学与工程应用中起着重要作用,如房屋和桥梁结构的振动分析、飞行器和涡轮机的固有频率分析、量子化学中电子结构的计算等.本文主要研究计算特征值显式下界
本文主要通过两层斜压大气模型,研究一些经典的大气动力学现象,如驻波,周期斜压波以及湍流现象。大气斜压波在天气变化过程中扮演着重要的角色,它的研究已经引起了许多学者的关注
自从J.A_.Green在1951年首次引入格林关系、这些等价关系在半群理沦特别是半群的结构理论的发展中一直扮演着重要的角色,为了要研究某一类半群:可以研究其上的同余:由此获得它
视频会议系统是一种利用网络通信技术,使不同地域的人能够进行音视频信息实时交互的应用系统。其直接的效益是节省开会者的时间和各种会议开销、增进业务交流、缩短决策周期等
本文以随机积分和随机微分方程的理论为基础,研究了四类具有时滞的非线性随机方程的长期行为,利用不同的方法得到一些充分条件以保证方程的解具有良好的性质。 第一章研究了
本文通过一种高阶辅助方程(dφ(ξ)/dξ2=h0+h1φ(ξ)+h2φ2(ξ)+h3φ3(ξ)+h4φ4(ξ)的解,得到了Davey-StewartsonIiul+uxx+uyy=-2|u|2u-uψ,ψxx-ψyy=-4(|u|)xx,方程的一系列
在本文中,首先对组合和n∑k=0k≡r(mod m)(nk)ak进行了研究。组合和在组合数论中已被广泛研究并且其性质也被广泛应用。孙智宏和孙智伟通过研究a=1的情形得到了三个Lucas序列
分层教育是充分考虑每一个学生的特点而形成的有效模式。本文分析了在高中数学教学中开展分层教育模式的意义,并从若干个方面,结合相关实践经验,阐述了分层教育模式的实施措