基于变分自编码的深度聚类算法研究

来源 :西南大学 | 被引量 : 0次 | 上传用户:michael_zhang_x
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是一种经典的无监督机器学习方法,其主要目标是根据数据空间的相似性,密度,间隔或特定的统计分布度量将数据进行划分。聚类一般用于探索性的数据挖掘问题,如今在图像分析,信息检索,数据压缩,文本挖掘和生物信息学等多个领域均有广泛的应用。然而,随着数据采集技术和存储技术的进一步发展,大量的无结构化、非线性的高维数据也随之产生,传统的聚类算法往往无法有效地揭示和探索这些高维非线性数据的潜在知识规律。因此,如何有效地解决大规模高维非线性无结构化数据的聚类分析是一个十分具有挑战性的研究内容,具有重要的理论和应用价值。近些年,深度聚类方法的产生和发展,为解决该挑战提供了一种思路。深度聚类方法结合深度表示学习和聚类方法,将输入数据映射到特征空间中,在该特征空间中,与问题背景相关的划分任务变得更加简单明了,同时也减轻了计算的复杂性。然而,现有的深度聚类方法往往对深度学习中的超参数十分敏感,最终聚类的效果和性能也局限于此。因此,本文针对上述所描述的挑战和参数敏感性问题,结合深度非线性表示学习和聚类集成方法,以提高对高维非线性数据的聚类效果及鲁棒性进行研究,主要研究工作如下:(1)我们提出了一种变分自编码的深度聚类算法(VAEDC),该算法利用了深度非线性表示学习和聚类的无监督共性,将深度变分自编码与聚类相结合后能更适用于非线性高维数据进行聚类。该算法主要由两个步骤联合训练完成,首先,VAEDC通过深度变分自编码器对输入数据进行预训练映射到低维深度表示空间,然后对深度表示进行初步聚类产生初始聚类结果,最后通过对网络参数调整和交叉迭代来产生最终的深度聚类结果,这样,VAEDC就能同时获得输入数据的深度表示结果和聚类结果。于此同时,为了验证VAEDC算法的有效性,我们设计了两组实验方案,一组是常规经典数据集上的实验对比,另一组是现实生物数据集上的应用实验对比,两组实验的结果均能显示出VAEDC算法的有效性和实用性。(2)针对深度聚类方法超参数敏感性问题,我们在VAEDC算法的基础上进行了改进,提出了变分自编码的深度集成剪枝聚类算法(VAEDEPC),该算法利用了聚类集成学习和集成剪枝技术,能够缓解VAEDC算法中对网络超参敏感问题,提高了深度聚类算法的鲁棒性。VAEDEPC算法主要由三个部分组成:首先,VAEDEPC利用VAEDC算法来生成M个多样化的初始基聚类结果,然后对M个初始基聚类采用集成剪枝技术进行剪枝得到L个剪枝后的基聚类,剪枝的过程中同时考虑基聚类的聚类效果和差异性,最后应用局部熵加权策略对L个剪枝后的基聚类进行集成获得最终的聚类集成结果。在实验方案方面,除了(1)中的两组实验外,我们还进行了集成剪枝策略的有效性分析实验,最终的实验结果显示VAEDEPC算法具有更出色的性能。
其他文献
众包技术是伴随着互联网的普及而出现的新型工作模式,即外包工作给互联网工人。随着机器学习技术的发展,标注数据集的缺乏日益成为性能瓶颈。传统的专家标注数据方式耗时费力,众包以其廉价、快速的特点成为标注海量数据集几乎唯一可行的方法。然而由于众包工人和任务的缺陷,结果中往往带有噪声,如何从嘈杂的众包结果中挖掘出高质量的数据成为研究热点。目前的众包研究主要关注质量控制和成本控制问题,而完善的工人与任务模型是
学位
<正>尽管当下的小学数学教学制度已经完善,但是随着对教学要求的不断提高,当下对小学数学教育也提出更高的要求。随着科学技术融入小学数学教学课堂,演变出的教学方法层出不穷,其中情景教育对小学数学课堂有更好的促进作用。为了进一步提高小学数学课堂教学效果,本文将对目前情景教学存在的问题进行挖掘,通过分析情景教学的特点和作用,探讨如何在科技发展环境下开展小学数学教学与情景教育的融合。
期刊
<正>党的二十大报告擘画了以中国式现代化全面推进中华民族伟大复兴的宏伟蓝图,是新时代全面建设社会主义现代化国家的理论指南和行动纲领。税收事业是党和国家事业的重要组成部分,税收现代化是中国式现代化的重要内容。全国税务系统深入学习宣传贯彻党的二十大精神,将税收现代化置于中国式现代化的理论和实践发展中进行认真思考、积极研究、建言献策,主动探索如何更好发挥税收职能作用服务中国式现代化。
期刊
小学语文教学应与学生的生活相联系旨在开扩学生的视野,提高学习语文的兴趣。本文将分析生活对语文教学的意义并探讨如何实现小学语文教学的生活化以此提高语文教学的教学质量。
期刊
已有文献较少从创新效率的无效性角度关注创新激励政策的作用。随着国家创新激励政策实施力度不断加大,强化政策实施精准性与有效性已成为提高企业创新系统整体效能的重要支点。基于中国A股上市公司面板数据,运用DEA两阶段模型从企业创新无效性的视角剖析典型创新激励政策——高新技术企业优惠税率政策对处于不同生命周期阶段的企业创新无效性的影响与作用机制。分组描述性统计结果显示,成熟期企业所受税收优惠、企业规模和员
期刊
随着网络与人们生活越来越紧密的结合,每个人都成为互联网上信息的生产者,每天有海量的数据在产生,信息检索成为了一个十分重要的课题,人们对于信息检索的需求也不再是单纯的用关键字查找相关文本,而是文本、图片、音频、视频等各种模态的数据互相检索查询,因此跨模态检索成为了信息检索方法研究的热点。跨模态哈希方法由于其额外空间占用低、检索速度快的特点成为了跨模态检索问题的一个优秀解决方案,因此受到越来越多的研究
学位
随着互联网大数据和信息技术的飞速发展,各类社交平台相继兴起,随之而来的是海量的数据,其中大部分是文本数据,而如何从文本中提取出有价值的部分,则正是自然语言处理的研究内容。在这些文本数据中,又以陈述句居多,如何针对这些句子,提出合理的问题,正是问题生成所要解决的。如今的在线教育行业正向以人工智能、大数据为基础的智慧教育发展,在这其中,需要为学生提供更多针对性的评估方法,这些往往都是以提问的方式出现。
学位
新兴的在线新闻平台为人们获取信息提供一种新的途径,随着这些平台上各种新闻数量的爆炸性增长,人们在海量新闻中很难找到有价值的话题。因此,如何从各种在线新闻中发现有意义的话题成为一项重要任务,新闻话题检测技术应运而生。新闻话题检测是话题检测与跟踪(Topic Detection and Tracking,简称TDT)的子任务,近年来引起广泛关注。通常,一个话题可以被认为是在特定时间或地点发生的特定事件
学位
近年来,全球癌症发病率呈逐年上升趋势,其中女性乳腺癌的发病率已经超过肺癌,已经成为影响女性健康的主要疾病之一。对乳腺癌症患者进行精准生存预后判断是当前乳腺癌研究领域的关键问题。准确的生存预后作为癌症预后的重要研究内容之一,在临床决策、建立姑息治疗体系等方面具有重要意义。与此同时,基因测序技术和数字影像技术的发展带来了海量的癌症组学和病理图像等多模态数据,为乳腺癌患者生存期预测研究提供了坚实的数据基
学位
人机对话作为自然语言处理的一个重要分支,旨在使普通人能够使用自然语言与机器进行交互,以方便快捷的方式获得自动信息服务。现有的人机对话系统主要可分为闲聊型和任务型两大类。任务型对话系统包含自然语言理解(Natural Language Understanding,NLU)、对话状态追踪(Dialog State Tracking,DST)、对话策略(Dialogue Policy,DP)和自然语言生
学位