论文部分内容阅读
随着信息时代到来,互联网平台产生了大量文本信息资源。这些文本信息资源蕴含了巨大的商业价值,如何有效地组织、管理和挖掘这些信息资源一直是工业界和学术界研究的重要问题。自动文本分类(Automatic Text Classification,ATC)技术被认为是管理这些文本信息资源的重要技术手段。传统的文本分类模型大多使用独热编码(One-hot Coding)方式编码样本标签。该向量表示是一种纯粹的符号表示,本身不具备任何语义信息。在这种情况下,标签信息未能在模型中得到充分利用。为此,研究人员尝试用标签的低维嵌入表示(Label Embedding)来编码标签的语义信息。本文主要研究标签嵌入表示在文本分类任务中的学习和应用问题。文章第一部分工作利用输入文本和标签之间的关联来学习标签的嵌入表示,文章第二部分工作将联合图卷积网络(Graph Convolutional Neural Network,GCN)和标签嵌入来完成文本分类任务。在先前的研究中,标签嵌入学习算法大多利用标签的辅助信息(Side Infor-mation)学习标签嵌入表示,如标签描述文本、标签属性集合等。通常,获取这些标签辅助信息代价昂贵甚至不可行。第一部分工作尝试将语料库中的输入文本作为对应标签的上下文信息来描述标签,然后提出标签分布式假设来建模标签间的显式相关性和隐式相关性。最后,模型将输入文本和标签集合都映射到同一个向量空间中,同时学习输入文本和标签集合的嵌入表示。实验结果表明,模型使用输入文本作为标签的上下文描述能够学习到优质的标签向量表示。近年来,图卷积神经网络在捕捉多个对象的全局相关性上展现出出色性能。我们希望借助图卷积网络来学习标签嵌入表示,并利用标签嵌入表示提高图卷积文本分类网络的分类性能。首先,我们注意到原始的图卷积文本分类网络将语料库中的文本和单词都作为节点组织到同一张网络中学习。这种紧耦合处理方式会导致模型消耗内存过大、无法动态处理新样本等问题,这些问题限制了模型在实际项目中的应用。为此,我们提出松耦合图卷积网络(Loosely Coupled Graph Convolutional Neural Network,LCGCN)模型,该模型通过分解文本分类任务中的依赖关系将语料库组织成核心和次要两个部分,从而使得模型具备高内聚、低耦合的特性。在此基础上,我们通过松耦合图卷积网络学习单词和标签的嵌入表示,并利用标签嵌入表示辅助文本分类任务。实验结果表明我们的松耦合模型能够有效地缓解紧耦合模型存在的问题。另一方面,实验结果还显示使用标签嵌入表示能够在原始模型基础上为模型分类准确率带来大约1个百分点的提升。