论文部分内容阅读
随着智能设备的普及应用,日常生活中产生了大量的碎片化短文本信息,例如,手机短信,社交动态分享,搜索语句,商品评论等。为了从这些海量的短文本信息中挖掘到更多的潜在商业价值,短文本分类任务受到越来越多的关注。由于短文本数据的独特属性,使其相较于长文本分类更加困难。一方面,短文本一般短小简洁,语法不规范,导致其特征稀疏,信息匮乏;另一方面,短文本更新速度快,数据量大,但是缺乏大量的带标签数据用于训练。
针对短文本分类任务,通过分析不同分类算法的优缺点,提出了一种基于图注意力网络的短文本分类算法,其主要内容包括:
(1)提出一种共现信息模型(Co-occurrence Information Model,CIM)用于构建短文本数据集的图结构,从而通过图结构的信息补充,能有效缓解短文本数据的稀疏性。首先,对语料库中的短文本进行分词,然后将词语和短文本视为图中的节点,并利用共现信息,构建词-词、词-文本、文本-文本之间的边。其中,共现信息基于PMI,TF-IDF,Cosine相似度等统计指标得到。
(2)在构建的图数据上应用图神经网络分类模型对图中短文本节点进行分类。具体地,首先以图卷积网络(Graph Convolutional Networks,GCN)为基础模型搭建CIM-GCN模型,并从原理分析其优缺点;随后,在图中引入Attention机制,改进图注意力网络(Graph Attention Networks,GAT),从而得到CIM-GAT模型;进一步地,为了从不同特征子空间进行注意力特征提取和融合,参考多头注意力(Multi-Head Attention)的思想,提出CIM-MGATs模型。
(3)为了克服缺少训练数据的困难,构建基于图的半监督学习方法。首先利用有标签数据和无标签数据共同建图,从而丰富图结构信息,然后再对整个图建模,使得标签信息和数据特征在图结构中利用拓扑结构进行有效传播,最后得到图中所有节点的最终表示和预测结果。
最后分别在HR,MR等短文本分类数据集进行实验,发现基于图注意力网络的CIM-GAT和CIM-MGATs模型相较于其他基础模型,不仅分类准确率更高,而且,对训练数据规模的鲁棒性更好。
针对短文本分类任务,通过分析不同分类算法的优缺点,提出了一种基于图注意力网络的短文本分类算法,其主要内容包括:
(1)提出一种共现信息模型(Co-occurrence Information Model,CIM)用于构建短文本数据集的图结构,从而通过图结构的信息补充,能有效缓解短文本数据的稀疏性。首先,对语料库中的短文本进行分词,然后将词语和短文本视为图中的节点,并利用共现信息,构建词-词、词-文本、文本-文本之间的边。其中,共现信息基于PMI,TF-IDF,Cosine相似度等统计指标得到。
(2)在构建的图数据上应用图神经网络分类模型对图中短文本节点进行分类。具体地,首先以图卷积网络(Graph Convolutional Networks,GCN)为基础模型搭建CIM-GCN模型,并从原理分析其优缺点;随后,在图中引入Attention机制,改进图注意力网络(Graph Attention Networks,GAT),从而得到CIM-GAT模型;进一步地,为了从不同特征子空间进行注意力特征提取和融合,参考多头注意力(Multi-Head Attention)的思想,提出CIM-MGATs模型。
(3)为了克服缺少训练数据的困难,构建基于图的半监督学习方法。首先利用有标签数据和无标签数据共同建图,从而丰富图结构信息,然后再对整个图建模,使得标签信息和数据特征在图结构中利用拓扑结构进行有效传播,最后得到图中所有节点的最终表示和预测结果。
最后分别在HR,MR等短文本分类数据集进行实验,发现基于图注意力网络的CIM-GAT和CIM-MGATs模型相较于其他基础模型,不仅分类准确率更高,而且,对训练数据规模的鲁棒性更好。