图聚类的融合学习研究

被引量 : 0次 | 上传用户:lkjh321
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在处理来源广泛、类型众多、结构复杂、规模巨大的海量数据时,如何高效地提取数据内在结构信息并对样本进行有效的簇类标识是数据科学专家们需要关注的问题。聚类方法是一种无监督学习的重要方法,能够有效地处理大数据标注稀缺性的问题;并且图聚类方法在处理数据的复杂、多源、异构、低质等问题时,具有更大的灵活性和适应性。因此,在针对复杂多源的数据处理过程中,图聚类方法已成为了其中一种重要的数据分析手段。然而,现有的图聚类方法还存在许多缺陷和不足,如对噪声鲁棒性弱、初始图质量低劣、对数据的非线性关系获取不充分、对多源数据的互补信息挖掘能力缺乏、多步学习策略易形成累计偏差等。因此,如何构建适应性强、泛化性优、稳定性高的数据图是图聚类建模过程中非常关键的问题。本文围绕着以融合学习为手段在图表示学习中的应用展开研究,致力于提出矫健且稳定的图聚类方法来克服现有方法所存在的缺陷及不足,以此提高整个模型的聚类性能。本文的主要工作和贡献如下:(1)针对噪声鲁棒性差、初始图质量低等问题,本文提出了基于双静态图融合的自适应动态图聚类方法。由于传统的构建数据图方法往往会导致初始图质量低下,从而导致最终聚类效果的不稳定和不确定。本文通过利用融合学习在一个稀疏的静态图和一个较稠密的静态图之间自适应地学习到一个稀疏度适合的动态图。该方法将双静态图融合项和秩约束项技巧性地组合在一个联合优化框架中,使得该方法能够从多个初始化的静态图中自适应地学习到具有确定连通分量限制的动态图。同时,在模型优化的整个过程中,该动态图一直保持着适于聚类需求的连通结构并以此实现一步聚类,避免了多步学习的累计偏差问题。(2)针对数据的非线性关系获取不充分、图表示的泛化能力不足等问题,本文提出了基于最小-最大优化策略的自表示图聚类方法。由于大多数现实数据都具有非线性特征关系,传统的简单静态图未必能够捕获到所有内在结构,尤其是难以获悉样本之间的非线性结构。本文提出了一种博弈化的最小-最大优化策略来有效地融合学习多个候选基核,并以此获取到一个能更全面性描述数据多重结构特性的共识核,从而有效地处理了传统图聚类方法中的非线性表示问题。然后,再在共识核特征空间中学习到一个对样本结构表示更全面的自表示图。该方法将多核组合优化、自表示图学习以及对样本集的簇类划分等子任务融入到协同优化的统一框架下。(3)针对多源数据的互补信息挖掘能力缺乏等问题,本文提出了基于对比反馈优化的多源数据图融合聚类方法。由于复杂多样的数据普遍存在着低质、异构等问题,这无疑增加了对多源数据进行无缝融合的困难度,也使得传统模型在学习过程中更容易出现不稳定和难收敛的现象。本文首先通过在优选的核空间中构建局部近邻图将原始数据的异构特征转化为高阶的同质特征表示,屏除多源数据之间类型和构型上的差异,以此来处理数据的来源庞杂、构型不同等问题。然后,再利用互信息对比反馈策略不断地利用多源数据间的一致性的信息来迭代地优化各信源的核图,以此来提升融合了多源数据互补信息的动态近邻图质量,最终达到提升聚类效果的目的。本文旨在针对现有的图聚类模型存在的不足进行改进,设计出稳定且有效的图表示,并将其应用到基于图表示学习的聚类方法中。为此,我们将融合学习架构与图聚类模型相结合,逐步引入多核学习、博弈化学习、反馈学习等方法,从而不断更新、发现和挖掘出样本分布的潜在特征,并以此获取到优化后的图结构,完成对样本数据的聚类应用。
其他文献
大数据时代,随着数据生成、收集与存储技术的发展,以大样本与高维为典型特征的大规模数据将会大量涌现。这为探索客观规律带来了机遇,也为统计分析带来了挑战。在统计方法中,分位数回归常用来反映解释变量对响应变量整个条件分布的影响,是探索客观规律的重要手段与方法之一。常用的统计软件都可进行分位数回归,但受到计算内存和运行时间的限制,大规模数据分位数回归往往难以奏效。因此,在大数据背景下,研究大规模数据分位数
学位
路灯照明是城市的重要组成部分,拥有良好的路灯管理方案对城市的维护和人民生活的提升具有很大的促进作用。近年来,随着物联网行业的发展,人们对路灯控制系统的研究越来越重视。传统的路灯控制方案大多对路灯的智能化改造入手,通信方式比较单一,当智能路灯与控制单元进行信息交互时,由于信道资源的管理不当,容易造成信号冲突,从而降低了路灯网络的运行效率。针对这一问题,本文设计了更加高效稳定的管理方案,本文主要做了以
学位
《普通高中物理课程标准(2017年版)》首次提出物理学科核心素养的课程目标,其中物理观念是物理核心素养的基础,而物质观念是物理观念的第一要素。《义务教育物理课程标准(2022年版)》用物理观念统领课程的全部知识内容,并且将“物质”作为一级主题。然而,在我国物理课程和教学中普遍缺失场物质的概念,导致学生不能正确认识场的物质性,影响学生正确的物质观的形成。现行物理教材中普遍存在一种错误的物质观——超距
期刊
深化教育评价改革是教育综合改革的关键任务和重要内容,对加快推进教育现代化、建设教育强国、办好人民满意的教育具有重要战略意义。针对教育评价实施现状调查发现的突出问题,提出着力从4个关键环节进行重点突破。在政府评价上,从政府教育履职评价入手破除自上而下的“五唯”导向;在用人评价上,将以品德和能力为导向、以岗位需求为目标作为改革方向,促进学生多元发展;在招生制度改革上,加强高校多元录取及自主招生工作,为
期刊
目的:通过开展葛根芩连丸治疗儿童诺如病毒(NoV)急性胃肠炎的临床研究,评估其临床疗效及安全性,为NoV急性胃肠炎的中医药治疗提供科学依据。通过对NoV急性胃肠炎患儿肠道菌群的组学研究和功能分析,以及葛根芩连丸治疗儿童NoV急性胃肠炎后肠道菌群的变化以及相关免疫功能的影响,为基于肠道菌群的NoV致病机制研究及抗NoV药物作用机理提供新的靶标。方法:本研究选取医院收治的NoV急性胃肠炎患儿60例为研
学位
以学习进阶为理论指导,尝试运用思维闯关教学,促进学生概念学习和科学论证水平的双进阶,并以新授课“牛顿第一定律”教学片段为案例进行阐述.
期刊
报纸
中考省级统一命题有助于严格落实国家课程标准、规范中考命题管理、提升中考命题质量,为推进基础教育优质均衡发展发挥积极作用。在中考统一命题实施过程中,面临着组织管理难度大、试题保密任务艰巨、难以兼顾各地教育水平差异、可能助长“唯分数”应试倾向等诸多困难。为保证中考省级统一命题政策有效实施,应从规范命题组织管理、采取多重命题模式、加强命题队伍建设、完善评卷工作机制、改革招生录取方式等方面着手深化改革。
期刊
培养学生生物学核心素养,促进科学思维和系统思维的发展,应关注学生运用统计学思维进行科学的实验设计以检验假设和解释数据生成新知识的能力。针对传统教学中将统计学仅仅作为“统计分析工具”的问题,本文探讨了统计学在中学生物学中的应用,并对教学中常见的几个统计学问题及应用误区进行了辨析,以更好地加强统计学和生物学的结合。
期刊
<正>北京理工大学办学特色我校工业设计专业成立于1984年。是国内高等院校中最早设立的工业设计专业之一。目前,本专业是教育部工业设计教学指导委员会委员单位、中国工业设计协会理事单位和北京市特色专业建设单位,2012年获批为工业和信息化部重点专业。
期刊