论文部分内容阅读
分类问题作为基础自然语言处理任务之一,其在推荐系统、搜索引擎和舆情分析等等大领域都有广泛的应用场景,而本文研究的多标签文本分类在现实生活中更是司空见惯。目前多标签分类算法普遍存在模型在分类时未考虑或较少考虑样本标签之间相关性的问题,显然这种做法是不符合传统认知的;第二点问题在于自然语言处理底层的文本表示方法的局限性,以往的词向量表示存在一词多义或不能同时获取上下文信息的问题。对此,将标签相关的先验知识和优化得到更好的文本表示成为亟需解决的问题。针对第一个问题,文章采用基于bert语言模型提取文本表示的方法,该方式从根本上解决了一词多义的问题,同时使用更为先进的transformer文本特征提取器替换LSTM,因其具有提取超长距离特征的能力、高效的并行能力和较快的收敛速度的优越性,并且是一种能够双向编码文本信息的处理方式,使得文本表示的结果包含更多的文本位置信息和序列信息,具有更强的鲁棒性。而对于标签相关性问题,文章根据数据集特性给出两种解决方案:1)对于体量小、特征相对明显、标签组合数少,部分标签之间共现度高的类汽车行业用户观点主题的短文本数据集,可以通过标签组合来描绘其标签相关性同时,将多标签分类转化为多分类问题,之后基于TextCNN进行文本分类,最后使用焦点损失缓解数据集中的类别不平衡问题。2)而对于更为一般的数据集,文章采用seq2seq基本架构来刻画,通过解码器一端的生成任务来模拟标签之间存在的相关性,其编码器由transformer编码器构成,解码器经过严格的数据分析仍然采用LSTM。同时在编码器一端加入混合自注意力机制,将文本中单词往往和其上下文密切相关的先验知识融入到模型当中,以增强其编码能力;在解码器一端实现了带掩码的softmax避免重复预测的问题,同时采用标签向量共享机制避免曝光偏差陷入局部最优。在实验验证部分,对原有的数据进行EDA方式的数据增强以缓解类别不平衡问题后,本文最后对上述方法在两个数据集上分别进行验证,最终得到了F1值0.8210和0.8465的较好效果,证明两种模型结构的合理性。