【摘 要】
:
随着信息技术的蓬勃发展,人类社会中产生的数据量飞速增长,数据对象的类别及其相互之间的关联越来越复杂,形成了规模巨大、种类繁多的异构信息网络(Heterogeneous Information Network,HIN),如何挖掘这些数据中包含的知识成为亟需解决的问题。因此,需要探索合理的异构信息网络表示方式,以提高存储与分析的效率。早期的方法基于网络采样的结果学习网络节点的稠密向量表示。然而,这类方
论文部分内容阅读
随着信息技术的蓬勃发展,人类社会中产生的数据量飞速增长,数据对象的类别及其相互之间的关联越来越复杂,形成了规模巨大、种类繁多的异构信息网络(Heterogeneous Information Network,HIN),如何挖掘这些数据中包含的知识成为亟需解决的问题。因此,需要探索合理的异构信息网络表示方式,以提高存储与分析的效率。早期的方法基于网络采样的结果学习网络节点的稠密向量表示。然而,这类方法忽略了采样过程中引入的有效信息与冗余信息之间的不平衡,以及网络中心节点过度表示与网络终端节点欠采样的不平衡,导致采样的结果无法准确地反映原始网络的性质。而近期,异构信息网络表示学习领域也开始广泛探索基于图神经网络(Graph Neural Network,GNN)的模型。然而,它们大都只利用了基于网络局部结构信息,并没有尝试利用网络节点的全局分布信息。实际上,对象在低维空间中的全局分布有利于辅助深度神经网络提取更有区分性的特征。因此,有必要探索如何利用该信息指导异构GNN对节点的学习。针对异构信息网络表示学习领域中存在的上述问题,本文完成的主要工作如下:1、面对异构信息网络表示学习领域的大量相关工作,本文基于国外的综述与研究,提出了一个统一的学习范式,并基于该范式采用的技术路线,将已有工作划分为基于结构相似性的模型与基于GNN的模型;进一步地,本文将对网络数据的处理与节点表示向量的学习两部分独立开,再就各部分对应的典型方法进行归类与阐述。在该综述的基础上,本文总结了已有的方法取得的成就与现存问题,在充分介绍本领域发展路线的同时,为未来的研究指明了方向。2、针对传统基于结构相似性的异构信息网络表示学习方法中的采样不平衡问题,本文提出了一种基于网络粗粒化与异构随机游走的模型Coar SAS2hvec。Coar SAS2hvec首先通过短距离的异构随机游走采样各节点局部上下文信息,通过跳过初始游走节点,避免自点对(self-loops)引起的信息冗余。在此基础上,Coar SAS2hvec利用节点度分布,平衡各节点的游走次数,充分采样不同结构分布下的节点上下文信息。在每一轮采样结束后,Coar SAS2hvec会对网络进行一次粗粒化,去除一部分在游走上下文中被过多表示的节点,从而保持网络中心节点和终端节点在游走上下文中的平衡。进一步地,本文在传统网络表示学习的损失函数中引入了一个类型指导矩阵,从而使学习到的节点低维向量中能够包含异构关系信息。实验结果表明,相较于对比方法,Coar SAS2hvec学习到的节点表示在下游任务上能够取得更好的效果。进一步的分析表明,Coar SAS2hvec采样到的结果具备更高的信息熵,且在传统的损失函数引导下也能学习到比对比方法更优的结果,充分说明了采样不平衡问题的重要性以及Coar SAS2hvec的有效性。3、尽管Coar SAS2hvec解决了异构信息网络的采样不平衡问题,然而该方法主要应用于传统的采样-表示-分析三步走场景,无法解决当下流行的端到端学习范式中异构GNN缺乏节点全局分布信息作为指导的问题。因此,本文提出了一个基于信息编码率压缩的正则化方法(CRC-Reg)。CRC-Reg将模型每一次训练的输出结果作为网络节点在概率空间中的全局分布信息。通过压缩输出结果的编码率(Coding Rate,CR),CRC-Reg能够使相似的节点在概率空间中分布得更为紧密,从而提高分类效果。在此基础上,由于CRC-Reg并没有要求自监督信息的原始输入形式,因此可以进一步推广至更泛化的分类场景。在异构信息网络场景下的节点分类实验结果验证了CRC-Reg对已有异构GNN模型的效果提升。而在同构信息网络节点分类与图像分类场景下的实验中,常用的GNN及深度神经网络模型在加载了CRC-Reg后,分类效果都得到了提升,进一步表明了CRC-Reg广泛的适用性。
其他文献
新兴的在线新闻平台为人们获取信息提供一种新的途径,随着这些平台上各种新闻数量的爆炸性增长,人们在海量新闻中很难找到有价值的话题。因此,如何从各种在线新闻中发现有意义的话题成为一项重要任务,新闻话题检测技术应运而生。新闻话题检测是话题检测与跟踪(Topic Detection and Tracking,简称TDT)的子任务,近年来引起广泛关注。通常,一个话题可以被认为是在特定时间或地点发生的特定事件
近年来,全球癌症发病率呈逐年上升趋势,其中女性乳腺癌的发病率已经超过肺癌,已经成为影响女性健康的主要疾病之一。对乳腺癌症患者进行精准生存预后判断是当前乳腺癌研究领域的关键问题。准确的生存预后作为癌症预后的重要研究内容之一,在临床决策、建立姑息治疗体系等方面具有重要意义。与此同时,基因测序技术和数字影像技术的发展带来了海量的癌症组学和病理图像等多模态数据,为乳腺癌患者生存期预测研究提供了坚实的数据基
人机对话作为自然语言处理的一个重要分支,旨在使普通人能够使用自然语言与机器进行交互,以方便快捷的方式获得自动信息服务。现有的人机对话系统主要可分为闲聊型和任务型两大类。任务型对话系统包含自然语言理解(Natural Language Understanding,NLU)、对话状态追踪(Dialog State Tracking,DST)、对话策略(Dialogue Policy,DP)和自然语言生
聚类分析是一种经典的无监督机器学习方法,其主要目标是根据数据空间的相似性,密度,间隔或特定的统计分布度量将数据进行划分。聚类一般用于探索性的数据挖掘问题,如今在图像分析,信息检索,数据压缩,文本挖掘和生物信息学等多个领域均有广泛的应用。然而,随着数据采集技术和存储技术的进一步发展,大量的无结构化、非线性的高维数据也随之产生,传统的聚类算法往往无法有效地揭示和探索这些高维非线性数据的潜在知识规律。因
背景:研究表明,在地塞米松诱导腭裂的小鼠胚胎腭突间充质细胞中miR-135a-5p呈高表达,初级纤毛及其介导的Shh信号通路参与小鼠胚胎腭突间充质细胞的自噬。由此猜测miR-135a-5p可能通过初级纤毛及其介导的Shh信号途径调控小鼠胚胎腭突间充质细胞的自噬。目的:探讨miR-135a-5p对小鼠胚胎腭突间充质细胞自噬的调控作用。方法:体外提取并培养C57BL/6J小鼠胚胎腭突间充质细胞。细胞转
并非所有的成果都类似诺贝尔奖的获奖工作或发表在《Nature》或《Science》上的研究一样拥有相当的成就与影响力,对于其余大部分的科研成果进行合理的量化分析,往往关系到科研政策、评价规则等的制定与修改,是长期以来的研究课题。研究实体主要有两种公开行为,即发表和引用。发表中包含的信息相对有限,其作为作者对自身研究内容的单向表达,基本只能体现作者在对应时期的研究内容及合作关系;而引用作为科研工作间
图像超分辨率重建是计算机视觉中的一项关键性技术,旨在将低分辨率图像重建成具有丰富纹理细节的高清分辨率图像。在如视频重建,医学检测、地理遥感、目标识别等众多领域有着广阔的应用前景和重要的研究价值。高分辨率图像模糊退化成低分辨率图像的过程中含有诸多难以建模的复杂因素,该映射是一种一对多的关系,难以一种求解简便的逆函数方法得到超分辨率图像。近年来,随着深度学习的发展以及在图像重建的实际应用,超分辨率重建
变应性鼻炎(Allergic rhinitis,AR)是指特应性个体接触变应原后,发生的主要由过敏原特异性Ig E介导的,且体内有多种免疫细胞及细胞因子参与的鼻黏膜慢性非感染性炎性疾病。主要临床表现包括,阵发性喷嚏、流清水样涕、鼻痒和鼻塞,且可能伴有支气管哮喘、慢性鼻窦炎和变应性结膜炎等多种并发症,对人们的生活和健康造成极大困扰。流行病学调查显示,全球大约有10%-40%的AR患者,不仅在生活质量
背景和目的:骨关节炎(Osteoarthritis,OA)的发展与关节组织中老化细胞的增多和软骨降解有关,原因可能是线粒体功能障碍和氧化应激。因此,减少氧化应激对软骨细胞的损伤通常被视为治疗OA的有效手段。淫羊藿作为一种传统中草药,常用于OA的基础研究和临床治疗。其独特的黄酮类化合物淫羊藿苷被历版《中国药典》指定为淫羊藿药材质量评价的指标性成分,具有清除氧自由基(Reactive oxygen s