论文部分内容阅读
近年来,随着大数据和人工智能的飞速发展,出现了各种复杂的网络结构,如社交网络、论文引用网络、基因工程网络等。这些网络中往往存储着很多有价值的信息,吸引了不少学者进行网络研究以探索网络中的重要信息。例如社交网络,通过探索网络中用户的连接关系得到用户的相关性信息,再进行分类学习,从而发现用户的兴趣喜好,来更好的服务于广告投放、营销、社区交流等领域。然而实际情况是网络中存在大量未标记的节点,使有监督分类学习较为困难。早期的解决方法是利用专家的经验来人工标记节点,这种方法耗时耗力,现在已不实用。如何利用已有的半监督分类学习模型对网络中的未标记节点进行分类预测成为热点问题。不同于一般的分类问题,网络中的节点不仅有各自的节点属性,还有网络连接关系。目前主流的节点分类方法主要有两类:基于表示学习的节点分类和基于深度学习的节点分类。前者一般只针对来自网络结构的信息来生成节点的向量表示,并应用到节点分类任务中。后者则基于网络结构和节点自身的属性来实现节点分类。论文在对基于表示学习的节点分类方法进行分析后发现:现有方法忽略了不同节点连接的网络结构不同的特点,例如未考虑节点的度这一信息。本文在对已有的网络表示学习算法和半监督学习算法进行深入研究的基础上,提出了一种基于网络结构的半监督分类学习算法,其改进思路如下:(1)改进随机游走策略,提出了基于可变长随机游走的网络表示学习模型,为网络中的每个节点设置惩罚因子来限制节点的游走序列长度,使不同的节点拥有不同长度的游走序列,这些节点序列相当于自然语言处理中的句子,将其作为输入应用到word2vec模型中,从而将网络结构的潜在信息转变成向量来作为节点的特征表示。(2)改进半监督分类算法,首先基于深度神经网络模型为未标记节点打上伪标记,然后混合已标记节点和未标记节点,并采用MixUp方法进行数据增广以得到新的节点集,最后将未标记节点的分类损失加入到模型的损失函数中实现模型的优化训练。将论文提出的方法在三个标准数据集上与目前较先进的几种方法进行了对比实验,结果表明:本文提出的方法相比已有的方法有更好的分类效果。