基于张量的联邦图聚类算法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:mysky_588
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图是节点和边的集合。对图的研究是在探究聚类算法过程中人们逐渐感兴趣的一个话题,图聚类可以对网络进行划分归类,通过获知节点的特征以及参考图网络的结构来把数据划分到不同簇中。由于现实世界存在海量的多源异构数据,传统的用数值或者向量表示的图节点和图结构已经逐渐不能满足对复杂数据的描述,所以引入张量这一概念来更充分地表示样本节点,同时也从多个角度利用图结构更全面地探索节点间关系。当多个参与者想协同进行图聚类时,就要考虑效率和隐私保护的问题。目前有关分布式的图处理任务主要都是致力于对图进行稀疏处理以提高效率,而对于隐私问题,只有单个图任务的节点匿名化隐私保护技术,还没有合适的多方合作隐私保护方案。使用联邦学习的框架来完成多方合作图聚类的任务,满足了对隐私数据进行挖掘分析的需求。张量和联邦学习这两个概念被使用,来优化图聚类算法,以得到一个多用户的安全张量图聚类模型。首先,将深度注意力嵌入图聚类扩展到高维张量空间,使用邻接张量表示同一组节点间在不同关系上的联系,而节点张量可以描述复杂样本在不同关系上的不同特征,这样就给现实世界的聚类任务提供了更充分更可解释的聚类结果。然后模拟多个客户端,加入联邦学习框架,令多个同分布的图聚类任务在学习过程中交换训练梯度,以获得效果更好,更具有普适性的通用图聚类模型。最后通过将基于张量的联邦图聚类算法和其他只使用单一特征值或特征矩阵的图聚类算法、传统聚类算法以及单方计算的聚类算法进行对比,实验结果表明该算法有更好的性能和效率,可以进行提供隐私保护的多方安全图聚类计算。
其他文献
随着计算机和遥感技术的不断发展,人们采集、存储遥感影像数据的能力得到了很大的提升,同时基于深度学习的目标检测任务也逐渐应用于遥感影像中。使用深度学习的方法训练检测器需要大量有标签数据驱动才能获得很好的检测效果,而现实中存在海量无标签数据,所以使用这些无标签数据来辅助优化检测器具有很大的研究意义。首先,本课题分析传统基于自训练的半监督学习方法理论,依据相似性聚簇原理假设,将EM算法思想应用于半监督学
学位
近年来,随着物联网技术的迅速发展,时间序列数据量出现了迸发式的增幅。股市行情的预测,天气变化的预测,金融分析,人口预测等等,都离不开海量时间序列数据的支持。索引与可视化成为分析这些时间序列数据的先决条件,但是时间序列数据实时产生,数据量动辄达到百万、千万甚至亿万级别,如何完成这样数据量的时间序列数据的存储、索引以及可视化充满了挑战。为了有效利用数据存储空间,时间序列数据存储采用分布式压缩存储结构,
学位
随着人们对室内定位服务的需求日益增加,如何为用户提供简单、高效、精确的室内定位服务成为研究热点。大部分相关研究的关注点在于单独的室内定位方法的研究,室内位置服务在实际应用中还需为用户提供地图显示、路径规划、定位、导航、楼层切换等配套服务。针对以上问题,以某大学办公实验楼为研究对象,以室内定位导航系统的功能设计与实现方案的选择为研究重点,实现了室内定位导航系统。在设计了室内地图数据结构的基础上,对办
学位
随着人工智能技术和物联网技术的发展,无人驾驶和车路协同技术得到了长足的发展。同时,可持续发展在社会进步中受到越来越多的关注,公共交通、步行、骑车等绿色出行方式受到鼓励,非机动车在道路上的行驶安全需要保障。基于深度学习的非机动车检测系统能够在道路的机动车流中检测到非机动车,通过车路协同系统同机动车共享检测结果,提高道路的安全性。目前的道路监控系统主要针对机动车,非机动车的数据量小且非机动车目标也较小
学位
钢铁产业是我国的重要基础产业,而带钢正是其中重要的中间材料,带钢加工过程中的表面缺陷检测技术始终是研究的热点。传统的计算机视觉结合深度学习的带钢表面缺陷分类方法,在监督学习下往往关注边缘检测算法和分类网络的改进。带钢表面缺陷分类任务存在着数据集样本量较少、样本标签标注困难的特点,限制着传统监督学习下分类模型的性能提升。半监督学习(Semi-supervised Learning,SSL)可以同时利
学位
这伴随通信技术的发展,移动设备的数量处于爆发式增长,5G技术作为时代性的革命技术,能提供更高的频谱利用效率和能效,相对于现有其他通信技术具有巨大的优势,设备到设备通信作为5G技术的关键技术,能够有效地提高蜂窝系统的通信效率和容量,但其中仍然存在激励机制、干扰协调、能源消耗等一系列问题。在本文中,提出了一个可持续的多用户协同下的D2D通信协作系统,分为单中继模型和多中继模型。此系统通过雾设备的中继行
学位
在互联网技术高度发达的今天,爆炸式增加的信息量促使了自动文本摘要技术的诞生,文本摘要技术能够帮助人们快速分析和理解文本信息。现实中描述同一事物的文档通常不止一篇,这些文档一般由不同作者在不同时间撰写,表达不同的主题信息。现有的多文档自动摘要旨在尽可能地概括源文档中的所有信息,主题信息的缺乏使得摘要的生成不够精准,与实际需求仍有较大差距。另外,现有的多文档自动摘要对文档间关系的把握也不够准确,导致生
学位
由于大数据时代数据量的日益膨胀,本地的计算与存储资源已无法满足人们的需求,越来越多的企业和用户选择云存储作为解决方案,与此同时云存储的隐私安全问题成为限制其发展的最大因素。将数据加密后上传可有效解决这一问题,但这样也降低了数据的可用性,难以对密文执行诸如关键字检索之类的常用操作。对称可搜索加密允许用户安全地将数据库外包到半可信的云服务器,并保留了对加密数据库进行关键字检索的功能。考虑到实际应用中增
学位
CPSS(Cyber-Physical-Social Systems)中包含了丰富的异构网络,对异构网络进行聚类分析有助于发现网络中浅层的数据特征,采用张量统一表征异构网络有助于融合多源异构数据,而目前针对异构网络的聚类分析面临如下问题:现有算法无法实现对异构网络的不同类型对象的聚类、且无法充分利用异构网络的稀疏特性。为了有效利用异构网络中丰富的语义信息,对多种类型的对象实现聚类,论文首先介绍了张
学位
大数据时代催生的基于信息空间、物理空间以及社会空间的人机物系统中的数据具有高度复杂性和丰富的语义信息,如何对如此大规模的多源异构数据进行价值提取以及分析,如人类活动性研究,成为社会各界研究不休的热点议题之一。其中,在处理人类活动的时序数据上,传统的隐马尔可夫模型虽然能够适用于大部分的应用场景,但囿于其本身理想化的前提假设条件,使得模型在一些关系更为复杂的实际应用分析中显得力不从心。针对传统隐马尔可
学位