DEC算法的改进及其半监督学习方法研究

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:tongxu1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是一种无监督的机器学习算法,在无标签的情况下对一组数据点进行聚类分组,分到同一组中的数据样本具有相似的特征,不同组的样本之间特征差异较大,其主要任务有关于距离函数的选择,最优聚类数(K值)的选择等。半监督聚类是利用半监督学习方式提升聚类模型效果的方法,它能够利用数据集的部分标签信息学习到更优的初始聚类中心、距离度量等重要影响因素。并且也能够监控聚类过程,不断迭代优化模型参数,以达到提高模型聚类效果,提高学习收敛速率等目的。深度嵌入聚类(DEC)算法是一种针对高维数据的无监督聚类方法,它在利用自动编码器生成的低维空间中进行聚类,并且以自定义的高置信目标分布为目标来进行学习,同时优化降维网络参数和初始聚类中心,完成聚类任务。本文针对降维空间是未知特征空间,无法确定各特征的不同量纲以及不同重要性的问题,首先提出了将基于熵权法的加权马氏距离应用于DEC算法中,改进了特征空间中的距离度量;同时给出基于加权马氏距离的间隔统计量(GS)方法来判断最佳聚类数,并以实证的方式证明其优越性和可行性。其次,在改进DEC算法的基础上,本文考虑半监督聚类方法利用部分标签信息,建立了新的目标函数学习DEC模型的最优权值参数估计,并使用基于半监督学习的参数初始化方法使得半监督DEC取得更好的聚类效果。对于半监督DEC算法,我们将其与原始DEC算法以及通过变更含有标签信息的数据的比例,在Toutiao、Reuters-10k、Mnist、Fashion-Mnist这四个数据集上进行了实证。实证表明,半监督DEC算法通过引入半监督标签信息从而训练得到更优的权重参数,从而学习更好的划分边界的方式是具有有效性以及可行性的。
其他文献
碳酸锶(SrCO3)和季铵盐类降速剂是目前丁羟基固体推进剂常用的降速剂,为了解决SrCO3和季铵盐(SIOC-TES)(以下统简称为季铵盐)在推进剂体系中分散性较差的问题,使其能发挥“协同效应”,更大幅度地降低丁羟基固体推进剂燃速。本文以微米级SrCO3和新型季铵盐为原料,制备出了纳米SrCO3/季铵盐复合粒子,并研究了其对丁羟基固体推进剂性能的影响,主要研究内容如下:(1)采用机械球磨法制备纳米
中国正处于社会转型的攻坚期,随着以互联网为载体的新兴媒介的迅速发展,大学生对于政治的诉求也不断增加,对政治系统有了更高和更深层次的期待。世界价值观调查数据显示,近年来我国大学生对于政治系统的认可度呈现明显的下滑趋势。大学生群体担负着国家的未来,他们对政治系统运行的认可度与信任感关系着政治权威的合法性和政治环境的稳定性。因此,作者选取现如今受众最为广泛的大众传媒形式之一——微信公众平台为例,通过深入
目的 探讨膝关节置换术后应用加压冷疗与奥塔戈运动干预对患者炎性因子水平、关节肿胀、平衡能力及膝关节功能恢复的影响及作用,旨在为膝关节置换术后康复提供更多思路。方法 选取2018年6月至2019年12月行膝关节置换术患者70例进行研究,按数字表法随机分为2组,对照组(n=35)采取加压冷疗和常规康复运动,患者回病房后则可开始加压冷疗,250 ml 0.9%氯化钠注射液冻成冰袋,首次冰敷时间30 mi
新中国成立后,从爱国卫生运动到健康中国行动,农村地区的健康发展一直受国家高度重视,但在精力投入、资源倾斜上不如城市地区。自2009年以来,“家电下乡”、“手机下乡”、“新农合医疗保障制度”、“乡村振兴”等政策陆续颁布,国家逐渐为农村地区的健康事业发展注入更多力量。2018年在“互联网+医疗健康”政策的推动下,新媒体环境下的健康传播呈现出新的发展动态。然而由于村民受教育水平低,媒介素养不足等问题,农
在食品、医疗卫生和药学等领域,葡萄糖是一种非常重要的物质。用于葡萄糖浓度检测的葡萄糖传感器经历了四代的发展,目前发展的第四代无酶电流型葡萄糖传感器是基于葡萄糖分子在电极表面直接催化氧化进行检测,其特点是不易受到环境因素的影响,具有较强的稳定性。随着纳米科技的发展,具有纳米结构的无酶葡萄糖传感器性能得到了很大的提升,含有活性元素、不同类型的纳米结构的制备成为了无酶葡萄糖传感器的研究重点。本文以不同N
区块链通过加密技术建立信任关系,重构信息价值体系,从根本上促进了互联网的改变,让互联网从信息传递向价值传递进化。区块链技术不断创新,从单纯货币交易的1.0体系发展到智能应用拓展的3.0体系,不再局限于单一金融领域,已延伸至生活方方面面,同时也在从单一的数字资产向多样化信息进化。区块链通过高安全性的分布式共识保证了去中心化特性,但仍存在事务处理吞吐率低、时间延迟大等性能瓶颈。不同区块链系统在数据组织
随着全文数据库向用户免费开放、自然语言处理与机器学习技术的快速发展,基于全文内容的文献计量与评价研究逐渐兴起,如知识实体抽取与评价研究等。算法是一种典型的知识实体,在当前大数据环境下,数据的处理与分析等关键步骤都离不开算法的应用。研究算法实体在特定领域学术论文中的提及,并在此基础上分析其影响力,能够揭示算法实体在学术论文中的分布,发现高影响力算法,从而为相关研究者了解和选择算法提供参考。为此,本文
现今高等教育逐渐由大众化向普及化发展,我国高校学生群体复杂多样,学生面临的学业问题增多和学习需要增加,因而我国也开始重视对学生的学业指导工作,提高学生学习能力,提升人才培养质量,为我国社会发展提供高素质人才。但是我国学业指导起步晚,指导体系不完善,专业化水平不高。美国高校的学业指导起源于殖民地时英国的导师制,历经150多年的发展,已经是一项专门性很强的工作,机构体系也较为完善,有相应的制度保障,整
为满足当前战略战术武器及商业航天运载火箭等系统的动力推进装置所采用固体火箭发动机的大推力需求,N15固体推进剂因具有高比冲、低特征信号、性能稳定等优点逐渐得到了广泛的应用和发展。目前发动机在设计时装药结构满足指标需求,点火工作时却因内部结构遭到破坏导致发射失败甚至发生爆炸这一难题困扰着研发人员。N15推进剂在点火工作时处于高温高压环境中,然而目前在装药结构完整性研究中,鲜有考虑环境压力对于N15推
引文上下文中含有被引文献的重要信息,如研究方法、研究结论和研究不足等,已被广泛应用于自动摘要研究工作中。然而,由于引用动机的不同,不同的作者对被引文献的描述也存在较大差异,使得引文上下文难以全面准确地反应被引文献的内容。近几年来,多项测评比赛,如CL-Sci Summ Shared Task、TAC 2014(国际文本分析会议)等均提出了基于科技文献中的被引片段的结构化摘要生成方法。被引片段是指引