基于知识蒸馏的多源跨网络节点分类方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:lly6739
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络,即具有图结构的数据,作为一种能够有效表达实体间关系的数据结构,被广泛应用于推荐系统,社交网络分析等领域。但是对图数据进行挖掘和分析需要大量的标注数据,即图节点带有标签。但是在现实生活中得到的图数据往往没有大量的标注信息,只有少量的标注信息甚至完全没有。而图数据往往规模庞大,甚至可能有数十亿个节点,如果进行人工标注将耗费大量的人力、物力和时间。并且可能会导致用户隐私数据泄露的风险。跨网络节点分类,旨在利用网络嵌入、迁移学习技术将从含有丰富标注的源网络中学到的节点嵌入表示,迁移到目标网络,解决目标网络中节点标注信息稀疏的问题。将知识蒸馏技术引入到多源跨网络节点分类方法中,能够有效提高学生模型的分类概率中的信息量。图可以按照节点和边是否只有一种类型分为同构图和异构图两种类型。同构的节点和边都只有一种类型。而异构图相比同构图更为复杂,节点和边至少一个不只一种类型。在研究图节点分类任务时,如果简单的将异构图看作同构图处理,忽略不同类别的节点和边的差异,是无法充分利用图中包含的信息,也无法在分类精度上获得令人满意的结果。因此本文中对于同构图和异构图分别提出了跨网络节点分类方法。针对多源同构跨网络节点分类问题,本文提出了一种基于节点蒸馏的对抗跨网络节点嵌入方法,该方法首先利用源域网络数据进行教师模型的训练,训练出网络嵌入模块和节点分类器模块,并且利用对抗域适应的方法让网络嵌入模块能够学习到既能够区分节点类别,又能够学习网络数据的领域不变性的表示。其次,通过计算源网络节点和目标域网络节点之间分布差异,选择一定比例的和目标域网络数据相似的源域网络节点训练学生模型。最后,将目标网络数据作为输入,输入到多个学生模型获得多个目标域网络中节点的预测结果。通过对这些预测结果进行加权聚合得出最终预测结果。在引文网络和蛋白质交互网络上的实验。大量试验表明,本文所提出的多源同构跨网络节点分类模型的分类准确率优于现有的最先进的模型。针对多源异构跨网络节点分类问题,本文提出了一种基于元路径蒸馏的共享参数网络嵌入方法,该方法首先利用源域网络数据进行教师模型的训练,在不同的元路径的条件下,用共享参数的网络嵌入模块提取源网络和目标网络的特征信息。使用最大均值差异MMD和L1归一化来对异构网络节点进行语义级嵌入和节点级嵌入进行对齐,让网络嵌入模块能够学习异构网络数据节点的领域不变性表示。其次,本文对源域异构网络数据的元路径进行蒸馏,选取一定比例的与目标网络元路径分布最为接近的元路径,训练学生模型。最后,将目标网络数据作为输入,输入到多个学生模型。对得到的多个预测结果进行加权聚合得出最终预测结果。在多个异构引文网络上的大量实验表明本文所提出的多源异构跨网络节点分类模型的分类准确率优于现有的最先进的模型。
其他文献
机器翻译作为自然语言处理领域的重要任务,旨在借助计算机程序将文本从一种自然语言翻译成另一种自然语言。随着近年来深度学习技术的突破,神经机器翻译(Neural Machine Translation)被越来越多研究者所关注,成为机器翻译领域的主流方法。现阶段的神经机器翻译技术采用基于表示学习的方式将输入文本经过模型编码成低维空间中的向量表示,这种向量表示通常融合了源端语言句子和目标端语言翻译片段的上
学位
全面深化改革背景下,价格法治的核心目的在于促进价格机制的有效性,实现市场对资源配置的决定性作用。对经营者价格行为的规制,应遵循价格自由优先和特定情境下的公益损害原则。以价格行为规范体系为基础,特定情境可以类型化为非常法律状态、垄断和信息不对称三种情境。公共利益指向由经济安全秩序、公平竞争秩序、公平交易秩序构成的整体价格法秩序,运用比例原则以价格行为规制促进效应和削弱效应的均衡为基准,可实现经营者定
期刊
图像生成技术在人脸合成、AI绘图和风格迁移等方面取得了显著的进展,文字风格保真图像生成技术是图像生成领域的研究热点之一。目前场景文本编辑技术的主流方案是对场景文本图像中的文字进行同风格替换,但现有方法存在以下四个问题:1)缺乏对高维流行空间中图像内容和图像风格的理论分析,导致生成图像的效果一般;2)缺乏对文本风格的细粒度调整的能力,如倾斜角度、颜色、字体类型等;3)由于文本与背景纹理耦合,模型不能
学位
近年来,得益于中国金融服务与产业大数据分析的发展,有效的解决了许多数据问题,金融服务的便利性明显提高,而同样由于近日我国政府陆续出台的《个人信息保护法》、《数据安全法》等有关法律法规,金融机构必须对掌握的大数据进行匿名化后方能与第三方合作分享,这也要求需要相应的信息安全保障技术对数据进行管理。论文围绕如何在数据安全合规的前提下,加快培育数据要素市场这个问题展开研究:即对金融数据进行匿名化处理,最大
学位
报纸
地磁场是地球的重要物理属性之一,内部蕴含着许多重要的地理信息,因此近百年来科学家们对于地磁的研究工作从未停止,尤其是近年在航空磁探领域的应用更是十分广泛。对于采集到的磁探数据来说,常常受到地磁日变数据的影响,因此为了对磁探数据进行补偿需要同步架设日变站采集日变信息。然而当前学者们对于日变数据的研究大都集中在日变的规律和建模上,更多是对日变数据的宏观分析,缺少微观角度的数据分析。在进行日变数据的采集
学位
基于目前视频流量盛行的时代,互联网承载内容的媒介已经从图文转变为了视频。视频流量的激增也带来了新的挑战。视频内容在网络传输中都是通过加密流量形式传输,并且在传输过程中会存在对视频压缩分段的操作,这些加密和分段处理使得网络中的视频流量比图文流量更难检测其内容信息。为了营造清朗绿色的网络环境,需要针对加密视频流量分类方法进行研究,从而增强网络视频内容检测能力,提高网络内容管理水平。本文提出了一种基于B
学位
利用高温热泵回收工业余热具有巨大的节能潜力,为提升高温热泵的供水温度和适用工况范围,在理论循环分析的基础上,研制了R245fa大温跨喷气增焓超高温热泵机组。以193 m~3/h准二级双螺杆压缩式热泵为实验样机,对其动态工况制热性能变化规律及全工况适用性进行实验研究。结果表明:在蒸发进水65℃,冷凝出水120℃下,主阀最佳过热度为7℃,辅阀最佳过热度为6℃,系统能效比为1.96,制热量为110.2
期刊
在自动化设备高速发展的时代,越来越多的机械设备取代了人工操作。其中,伺服电机作为多轴运动控制系统的执行器起到了至关重要的作用。当伺服电机运行环境恶劣或干扰较多时,可能会使其各部件出现不同种类的故障,严重时可能导致整个系统功能瘫痪与损毁,造成不可挽回的损失。所以,对于伺服电机进行实时故障诊断工作的重要性不言而喻。本文基于伺服电机运动控制系统,开发了一套实时在线状态监测平台,同时进行故障诊断方法研究,
学位
学位