基于生成对抗网络的深度网络表示学习算法的研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:leoni002
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今,网络数据作为一种广泛使用的数据载体,正逐渐成为人们认知并抽象世界的一种方式之一。网络中除了节点和边的信息外,往往还包括丰富的节点属性,蕴含巨大的价值。网络表示学习,是一种旨在将网络数据中的节点表示成低维、稠密且是实值向量表示形式的新颖的表示学习方法,学习到的向量表示将会用于各类下游任务如节点分类和链路预测中以提升性能。然而现有的深度网络表示学习方法由于忽略了嵌入表示的分布容易陷入过拟合问题,意味着这将会影响学习到的嵌入向量表示在下游任务中的泛化能力。
  生成对抗网络运用对抗训练的思想,通过设置一个生成器来拟合数据的真实分布,基于生成对抗网络的网络表示学习方法,以对抗训练机制来约束学习得到的嵌入表示的分布开缓解过拟合问题。然而现有的方法以无监督学习方式进行,存在两方面的问题:一是提取的网络嵌入表示性能不足,在学习嵌入特征时没有充分利用网络的邻节点信息,同时缺乏对内容信息的重构;二是这类方法使用的对抗训练机制需要人为指定一个先验分布,存在模式崩溃问题,同时使用经典的对抗损失函数存在生成器训练困难问题。
  针对以上问题,本文研究提出了基于注意力的对抗正则化网络表示学习模型和基于Wasserstein距离的对抗正则化网络表示学习模型,主要工作包括:
  (1)针对现有方法提取的网络嵌入表示性能的不足,提出基于注意力的对抗正则化网络表示学习模型(Attention Based Adversarially Regularized Network Embedding,AARNE)。该模型在ARGA模型的基础上受GAT启发,提出了一个注意力自动编码器学习网络的嵌入表示,通过引入注意力机制在更新节点表示时动态考虑不同邻节点的权重,并通过加权聚合邻节点得到新的表示,与此同时,通过结构解码器和内容解码器分别重构邻接矩阵和内容矩阵,使得嵌入表示可以同时保留网络的结构信息和内容信息,最后通过对抗训练框架对嵌入表示施加先验分布的约束缓解过拟合问题。最后在Cora、Citeseer和Pubmed数据集上进行实验验证了AARNE模型可以学习到更好的嵌入表示。
  (2)进一步,针对现有方法因人为指定先验分布进行对抗训练存在模式崩溃以及使用经典对抗训练损失函数造成的生成器训练困难问题,提出了基于 Wasserstein 距离的对抗正则化网络表示学习模型(Wasserstein Adversarially Regularized Network Embedding, WARNE)。该模型受 WGAN 启发,通过引入一个生成器参数化先验分布避免了人为指定先验分布带来的模式崩溃问题,并基于 Wasserstein 距离修改对抗训练的损失函数缓解梯度消失或不稳定造成的训练困难的问题,通过最小化新的对抗训练损失来尽可能减少嵌入表示分布和真实数据分布之间的差异,对嵌入表示进行起到正则化的作用。最后在三个引文数据集上进行实验验证了WARNE模型的有效性。
其他文献
摔倒是老年人意外死亡的首要原因,摔倒行为检测在维护老年人生命安全方面有着重要应用价值。本文以研究人体摔倒检测为主要方向,基于计算机视觉,将目前主流的深度学习方法用于监控视频下的人体摔倒行为建模和检测,主要完成以下工作:  1)对现有的三种人体摔倒检测法:可穿戴设备法、环境感知法和计算机视觉法进行研究对比,分析不同方法的研究现状、优缺点和适用场景。  2)提出了基于人体轮廓关键点和LSTM(Long
肺癌是威胁人类健康的多发癌症,其病灶的表现形式肺结节,它是致死率最高的癌症之一,如果在癌症早期发现病灶并及时进行治疗将会大大降低死亡率。医学CT(Computed Tomography,CT)影像是肺癌诊断的主要模态,这些影像数据为医学工作者提供了大量的诊断信息来判断癌症的类型。但是由于人工阅片需要医务工作者具有较强的专业素养,并且诊断比较耗时,因此计算机辅助诊断(computer-aided d
学位
磁共振成像因其具有无创、较高的软组织对比度等特点,广泛用于脑科学研究和临床脑疾病诊断,脑部磁共振图像的分割可辅助医生诊断病情。纵向弛豫时间T1是磁共振成像组织的固有属性,组织特性T1映射图不仅反映了成像组织的生理学或病理生理学特征,还提供了原始脑部磁共振图像不具有的组织特征。本文主要研究的是融合组织特性的脑部磁共振图像分割方法,研究内容如下:  (1)基于自旋回波—反转恢复序列以及反转时间,计算并
在光伏功率预测分析的过程中,由于光伏板受外界因素影响,输出功率会产生变动,从而威胁到电网的安全。本文针对光伏功率影响因素和算法的创新应用展开研究。实验主要完成以下工作以及研究:  (1)SVM算法是本实验运用机器学习预测光伏输出功率中所选择的经典算法。研究使用GBDT算法和SVM算法组合的方式对光伏功率输出进行短期预测。由于得到的电站数据包含多组因素,使用GBDT算法对数据中的因素进行重要性分析,
学位
步态特征是一种新型的生物特征,与其它的生物特征,如人脸、指纹等相比,其最突出的优势在于非接触性和远距离适用性。在当今高科技越来越发达的时代,步态识别在智能视频监控和身份识别领域都有着重要的实用价值。在传统步态识别方法中,因为步态模型的参数通常是根据人的先知经验选取的,识别率的高低受步态建模的影响较大,另一方面,外界因素如大衣外套、背包携带物等对模型的训练也会产生较大的影响。针对以上问题,本文分别开
学位
深度神经网络的训练任务通常具备计算和存储密集的特性,往往需要依赖于 GPU集群中大量 GPU 计算以及显存资源,并通过分布式训练以提升训练效率。传统分布式训练中数据并行的方式因参数同步存在巨大通信开销,而模型并行则由于计算依赖性导致 GPU 利用率较低,均影响了分布式训练的效率。为此,最新的流水线分布式训练在模型并行基础上,通过分时注入训练数据的方式显著增加 GPU 利用率。然而,在现有的GPU集
学位
随着数据共享的不断深入,对描述数据产生与演化原理的世系工作流(Provenance Workflow)进行共享发布的需求日益迫切,世系工作流在追踪历史信息、数据恢复、数据来源引用等方面有重要应用价值,直接对世系工作流进行共享发布存在泄露工作流隐私风险,世系工作流共享发布中的隐私保护问题已成为研究者关注的热点。针对现有世系工作流模块隐私与结构隐私保护方法存在的不足,提出维持溯源查询可用的隐私保护世系
学位
我国的心血管疾病死亡率居各病因之首,占居民疾病死亡构成的40%以上,心律失常是心血管疾病中重要的一组疾病,标准的12导联心电信号是诊断心律失常的重要工具,基于心电信号的心律失常自动检测对预防和治疗心血管疾病有重要意义。虽然12导联心电图信号比单导联心电图提供了更全面的心律失常信息,然而不同导联之间的信息很难有效融合,因此,基于12导联心电开发一种具有较高准确性和较强泛化能力的的心律失常自动检测算法
学位
面向服务的架构(Service-Oriented Architecture,缩写SOA)由于其应用程序接口独立、资源可共享和重用的特点得到广泛的利用,解决了传统应用架构应用程序难以管理、系统依赖特殊环境的问题。服务集成框架是适用于实时分布式应用领域的 SOA 实现方案,由于缺乏服务组合机制,系统中大量已有可用服务难以被有效复用。而现有的服务组合机制难以直接应用在同时支持发布订阅和请求应答两种通信方
随着X射线计算机断层成像(X-ray Computed Tomography,CT)在现代医学中的应用越来越广泛,CT 检查中潜在的辐射风险也引起了广泛的关注,过量的辐射容易诱发白血病以及癌症等疾病,因此,降低CT扫描过程中的辐射剂量刻不容缓。但是降低CT扫描过程中的辐射剂量会导致重建后的CT 图像中的信噪比降低,CT 图像中存在着严重的噪声和伪影,进而影响医生的诊断。为了提高在低扫描剂量下CT图