基于自监督学习的图数据特征提取和利用

来源 :吉林大学 | 被引量 : 1次 | 上传用户:alexl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,神经网络极大推动了各个领域的研究,越来越多的神经网络模型被研究人员设计并提出,如卷积神经网络、循环神经网络等等。深度学习在许多领域的成功很大部分依赖于大量可用的训练数据,深度学习模型可以从这些欧几里得数据中提取到数据本身隐藏的信息。然而,越来越多的数据以非结构化的形式存在。因此,在过去几年中,研究人员不断提出能适用于处理复杂图数据的模型并使其迅速发展。图神经网络是一种处理非欧几里得空间数据的神经网络方法,近年来受到越来越多的关注。图神经网络通过消息传递机制,不断迭代聚合近邻节点的特诊信息来捕获中心节点邻域内的结构和特征信息,同时结合中心节点自身的节点表示来更新获得中心节点的新的节点表示。目前,图神经网络在节点分类、链接预测和图分类等各种应用中取得了巨大成功。然而,在许多现实世界场景中,图结构数据通常是类别不平衡的。当在类别不平衡的数据集上进行训练时,图神经网络在节点分类任务中对于少样本类别节点的表现并不令人满意。由于少样本类别节点数量较少,导致这些少样本类别节点在训练目标函数中的参与度较少,同时,图神经网络背后的消息传递机制进一步加剧了这个问题,因为在消息传递过程中,来自少样本类别节点的信息可能会被多样本类别节点的信息所淹没。为了解决基于图神经网络的节点分类不平衡问题,最有效的方法是在传播过程中促进少样本类别节点的参与。同时,增强少样本类别节点在训练目标函数中的参与度。因此,受自监督学习从无标签数据样本中探索有用信息的启发,本文提出了两种新的基于自监督学习的框架,来解决图数据类别不平衡节点分类问题,分别为利用自监督学习改善图类别不平衡学习算法和利用自监督学习的不确定性感知动态自训练算法。具体而言,利用自监督学习改善图类别不平衡学习算法首先利用自监督学习设计对图结构数据的拓扑信息预测借口训练任务,有效缓解模型在引入标签信息训练时引入的标签偏见,帮助模型获得能够更好适配下游任务的初始化参数。然后对有标签训练集进行数据增强,利用自训练任务为无标签节点数据分配伪标签,将分配了伪标签的节点和本身带有真实人工标注信息的节点共同作为分类损失的训练样本。由于训练数据存在类别不平衡,自然导致训练数据存在拓扑不平衡,通过设计自监督边增强任务为少样本类别数据增强其在消息传递过程中的参与度。利用自监督学习的不确定性感知动态自训练算法考虑了使用自训练过程引入的噪声问题,通过最大化减小自训练过程引入的噪声,从而获得具有高置信度的伪标签是少样本类别的无标签节点,从而能够更有效的解决图类别不平衡节点分类问题。具体而言,首先利用贝叶斯图神经网络获得针对无标签节点的标签预测,应用贝叶斯不一致主动学习方法来降低贝叶斯图神经网络预测的不确定性。同时,提出标签一致性筛选出属于少样本类别且具有高置信度的无标签节点扩增训练集。针对自训练框架提出动态类别平衡规则,在每个类中选取具有高置信度伪标签的少样本类别节点来扩充有标签训练集的同时,统计当前有标签训练集中每一个类别所占的数量。每一次有标签训练集的扩增将意味着有标签训练集中每一个类别属于少样本类别还是多样本类别的重新估计。为了避免在前期训练过程中引入的噪声标签信息,在每一次有标签训练集更新的同时会重新预测当前有标签训练集中包含的所有无标签节点的伪标签信息,进一步减小引入的噪声。将提出的模型在三个常用现实数据集上的实验结果与其他基线算法进行比较,提出的模型在准确度和AUC以及F-Score评价指标上都有显著的提升,且更能真实的提升图神经网络在少样本类别节点上的表现。
其他文献
<正>假期,我到姨妈家小住了几天。一早,表妹写了一会儿作业,就下楼看电视了。她窝在沙发上,一边吃着零食,一边看得乐不可支。正看得着迷,姨妈过去“啪”的一声,把电视给关掉了。“干吗关了啊?”表妹不满地嘟囔着。“干吗?你都看多长时间了?”姨妈一手叉着腰,一手指着表妹数落起来,“这大热天的,
期刊
特征选择是根据特征的相关性,冗余性等因素对数据集进行维度约简的过程,目前已在机器学习、数据挖掘和模式识别等众多领域的分类任务中得到了广泛的应用,是对相关领域数据进行预处理,进而提升算法性能的重要手段。在特征选择任务中,应在保证较高分类准确率的前提下,尽最大限度地降低所选择的特征数量,以达到降维的目的。近年来,元启发式算法因其在处理复杂现实问题方面的高效性受到了学者们的广泛关注。与此同时,许多元启发
学位
肝癌是发病率和致死率较高的肝脏疾病之一,肝癌治疗需要准确的诊断和计划。计算机断层扫描(CT)技术是诊断肝癌最常用的成像技术,可以提供人体腹部器官的准确解剖信息。但是,从CT扫描中手动分割肝脏器官和肿瘤既繁琐又耗时。目前,计算机辅助分割方法已广泛应用于肝脏和肝脏肿瘤的分割。然而,不同患者肝脏的位置、形状和大小差异较大,CT图像的对比度低并且器官边界模糊,使得自动化肝脏分割成为一项具有挑战性的任务。此
学位
脑肿瘤是指在大脑内部生长的不正常细胞群,由于大脑结构的复杂性,对脑部肿瘤图像的病灶区域进行准确分割对医生诊断至关重要,而在图像分割任务中深度学习的应用也日渐广泛,在此背景下,本文对应用深度学习分割脑部肿瘤图像的方法进行研究,提出了基于密集跳跃连接的脑肿瘤图像分割方法。脑肿瘤图像序列的分析学习不仅要考虑到多维度的空间信息,还需要将多种成像模式下的图像进行关联学习,以获得更加准确的分割结果。为减少图像
学位
伴随着计算机科学的不断发展,图像技术开始与临床医学相融合,产生了现代医学成像技术。现代医学成像技术通过提取人体各个组织的生物特征信息并加以分析,可以获得患者检查部位组织的生理功能和代谢状态信息,实时地反映患者的健康状况。医疗图像成像技术的发展将传统的解剖学观察人体组织转化为如借助电子计算机断层扫描仪器对器官影像进行选择处理,临床医师可以更加直观高效的对患者进行诊断并给出相应的治疗方案,减少了患者的
学位
随着科技的进步和工业的飞速发展,各个领域涌现出许多复杂非凸、非线性不可微的优化问题。群体智能算法作为一类启发式优化算法,以其独特的优化机理在解决这些问题时展现出了优秀的搜索性能。粒子群算法(Particle Swarm Optimization,PSO)作为群智能算法中重要的一类算法,由于其易于实现,且具有参数较少收敛速度较快等特点,被认为是解决复杂优化问题的一种可靠的算法,并被广泛应用到各个领域
学位
人们获取和发表信息的方式随着互联网技术的提高越来越便捷,各种信息的数据量也在日益增长。与此同时,出现了“信息过载”的问题,人们无法从众多数据中高效地找到自己想要的信息。推荐系统用于解决这一问题。面对用户需求比较模糊的情况,推荐系统根据用户的历史信息和属性等数据计算出用户的喜好,从大量的数据中过滤出他们可能感兴趣的事物,然后做推荐。面对不断加入的新用户和新项目,传统的推荐算法会因为缺乏历史数据而无法
学位
软件产品线是一组软件产品,它们共享一组可管理的功能,满足特定细分市场或任务的特定需求,并以规定的方式从一组共同的核心资产中开发出来。软件工程师使用软件产品线来降低软件成本,提高软件可重用性并促进软件维护。在软件产品线配置问题中,一个关键的任务是得到一个满足利益相关者特定需求的最优产品。软件产品线配置是一个典型的多目标优化问题。软件产品线配置问题往往涉及多个相互冲突的目标,探索可行解的有限搜索空间,
学位
阿尔兹海默疾病(AD)是一种多发于老年人的神经系统退行性疾病。预计至2050年,每年新增病例将达到100万。随着步入老龄化社会,未来AD患者将快速增长,这对社会发展构成了严峻的威胁。目前对于中晚期AD还没有有效的治疗方法,因此AD的早期诊断变得尤为重要。近年来长链非编码RNA(lnc RNA)被发现参与越来越多的生物过程,与癌症和阿尔兹海默等疾病的发生密切相关。目前lnc RNA已经成为这些疾病重
学位
<正>小伙伴们,新的学期开始了!寒假期间在家就能睡想睡的觉,想怎么躺就怎么躺!想去哪玩就去哪玩!没有门禁没有熄灯!没有断网没有断水!不用在饭堂挤队打饭,想吃什么就吃什么的日子即将结束。你是感到惊喜?还是意外?听说最近全国各地学校都在上演史诗大片《开学》,不知道在假期玩high了的同学们,是否患上了"假期综合症"呢?下面小编给你配上几贴药,保证药到病除!
期刊