论文部分内容阅读
图是计算机解决问题时采用的一种重要数据结构,它广泛应用于各种场景,在真实世界、社会关系和网络空间中随处可见。一方面,随着互联网的普及以及传感器和通信技术的进步,越来越多的数据以图的形式呈现出来;另一方面,人们越来越关注由对象与对象之间的关联性产生的复杂结构,而图正是研究和利用这些结构信息的重要工具。在这样的背景下,作为图中结构和语义信息的载体,图节点属性可扮演标签或特征的角色,赋能面向图的机器学习研究和应用。因此,图节点属性挖掘作为连接图与人工智能的桥梁,拥有极高的实用价值。
本文围绕图节点的属性挖掘问题展开研究,以多种类型的节点属性为挖掘对象,涵盖了机器学习应用中的特征计算和标签获取过程,由易至难地研究了不同场景下的节点属性挖掘方法,提出了一个通用的图节点属性挖掘框架。该框架有着极高的应用价值,其中部分算法被应用于实际问题,产生了一定的经济效益。
本文分别基于手工特征、表示学习和人类智能作出了四项研究,提供了涵盖结构、时序、众包和语义属性挖掘的完整工具,针对图的结构复杂性、图的动态性以及非结构化多模态数据挖掘等挑战提出解决方案。本文的主要研究内容与贡献如下:
1.提出一种信息传播网络中的节点属性提取和分析框架,从主题、结构多样性和信息传播三个方面设计手工属性,并探讨其作为特征分辨信息传播网络的可能性。框架在以上特征的基础上对来源于现实世界的不同信息传播网络展开实证分析,证明这些特征能够用于有效预测信息传播模式、传播规模和节点传播信息的倾向。
2.提出一种基于三角闭合过程的动态图节点表示学习算法,以表示学习的思路,编码隐含在图中的结构属性和时序属性。算法首次将三角结构闭合过程假设应用于图节点表示学习,并结合社交趋同性、时序光滑性假设,分别刻画了推动图结构发生变化的动力以及图节点在结构和时序上的相关性。算法将结构信息和时序信息进行了成功的融合,学习得到的表示向量能够有效地提升机器学习任务的表现。
3.提出一种基于众包标签的语义属性挖掘算法,通过引入众包计算的方法,利用人类智能挖掘一些目前的算法难以计算的节点属性。算法首次将众包计算与深度学习结合应用于图节点属性挖掘问题,不仅实现了目标任务上的众包标签聚合,还学习一个深度模型以编码部分众包属性。实验证明,算法能够有效地完成目标属性的挖掘任务,且学习得到的深度模型能够有效辅助相似的语义属性挖掘任务。
4.提出一种基于深度对抗强化学习的语义属性主动学习算法,用于提升高标注代价下基于专家标注的图节点属性挖掘方法的效率。算法首次提出将层次化采样、强化学习、对抗训练相结合用于求解主动学习问题,以学习一种直接针对目标数据分布进行优化的鲁棒的主动学习策略。和传统的主动学习算法相比,本文提出的算法能够有效利用数据本身的性质选择最优策略;和基于学习的主动算法相比,本文提出的算法不依赖一个相似数据分布的训练集,也不依赖人在回路的学习方式。
本文围绕图节点的属性挖掘问题展开研究,以多种类型的节点属性为挖掘对象,涵盖了机器学习应用中的特征计算和标签获取过程,由易至难地研究了不同场景下的节点属性挖掘方法,提出了一个通用的图节点属性挖掘框架。该框架有着极高的应用价值,其中部分算法被应用于实际问题,产生了一定的经济效益。
本文分别基于手工特征、表示学习和人类智能作出了四项研究,提供了涵盖结构、时序、众包和语义属性挖掘的完整工具,针对图的结构复杂性、图的动态性以及非结构化多模态数据挖掘等挑战提出解决方案。本文的主要研究内容与贡献如下:
1.提出一种信息传播网络中的节点属性提取和分析框架,从主题、结构多样性和信息传播三个方面设计手工属性,并探讨其作为特征分辨信息传播网络的可能性。框架在以上特征的基础上对来源于现实世界的不同信息传播网络展开实证分析,证明这些特征能够用于有效预测信息传播模式、传播规模和节点传播信息的倾向。
2.提出一种基于三角闭合过程的动态图节点表示学习算法,以表示学习的思路,编码隐含在图中的结构属性和时序属性。算法首次将三角结构闭合过程假设应用于图节点表示学习,并结合社交趋同性、时序光滑性假设,分别刻画了推动图结构发生变化的动力以及图节点在结构和时序上的相关性。算法将结构信息和时序信息进行了成功的融合,学习得到的表示向量能够有效地提升机器学习任务的表现。
3.提出一种基于众包标签的语义属性挖掘算法,通过引入众包计算的方法,利用人类智能挖掘一些目前的算法难以计算的节点属性。算法首次将众包计算与深度学习结合应用于图节点属性挖掘问题,不仅实现了目标任务上的众包标签聚合,还学习一个深度模型以编码部分众包属性。实验证明,算法能够有效地完成目标属性的挖掘任务,且学习得到的深度模型能够有效辅助相似的语义属性挖掘任务。
4.提出一种基于深度对抗强化学习的语义属性主动学习算法,用于提升高标注代价下基于专家标注的图节点属性挖掘方法的效率。算法首次提出将层次化采样、强化学习、对抗训练相结合用于求解主动学习问题,以学习一种直接针对目标数据分布进行优化的鲁棒的主动学习策略。和传统的主动学习算法相比,本文提出的算法能够有效利用数据本身的性质选择最优策略;和基于学习的主动算法相比,本文提出的算法不依赖一个相似数据分布的训练集,也不依赖人在回路的学习方式。