论文部分内容阅读
海量信息时代,信息内容理解变得愈发重要,一种重要的方法是给内容打上合适的语义标签,例如:根据内容和用户的标签进行推荐;预测网络评论的语义标签来过滤有害评论;使用一套关键词对科学文献进行标注索引等。人工标签标注低效又不经济,因此研究高性能的多标签语义索引算法具有重要意义。传统多标签文本语义索引算法大多基于统计机器学习方法,随着近年来深度学习的飞速发展,其逐渐变成了自然语言处理领域的最优实践方法,本文针对基于深度学习的多标签文本语义索引问题,按以下逻辑层层递进地展开研究:(1)对于标签空间较小(可选标签范围小)的多标签文本语义索引问题,本文使用经典的二元相关方法,将多标签问题转换为多个单标签问题,使用在自然语言处理领域展现了强大性能的BERT迁移学习的方法作为基学习器来处理每个标签的分类,将各个基学习器的结果综合实现多标签类别预测。(2)对于标签空间较大(可选标签范围大)的多标签文本语义索引问题,二元相关方法的资源消耗过大(个可选标签需要训练个分类器,推断阶段同样需要个分类器同时工作),同时不易利用标签间关系。本文设计了基于共享权重的神经网络结构,同时预测所有标签,降低计算资源消耗,此外,我们设计了一种即插即用的(不依赖于具体网络结构)多任务学习结构,高效地利用标签间关系。(3)面对训练数据不均衡问题,常见的基于数据采样的方法不适用于一次性预测所有标签的共享权重的神经网络算法。本文设计了一种简单有效的缓解数据不均衡影响的方法,以focal loss作为优化目标,并使用根据类别正负例比例动态调整分类阈值,可以在一定程度上缓解数据不均衡问题对算法性能的影响。(4)面对训练数据规模很大的情况,数据可能无法一次性加载到内存中,同时,使用一块GPU甚至一台主机的训练速度都无法满足应用需求。为使得本文设计的算法更贴近实际应用场景,本文采用了高可扩展的算法实现,包括protocol buffers训练数据存储格式、流水线式的数据加载与转换、和基于ring all-reduce的分布式训练过程。本文设计了对比实验,验证了设计的方案的有效性,设计的方法在实验数据集上取得较好的表现:在kaggle jigsaw toxic comment数据集的kernels已公开解决方案中AUC-ROC指标排名第二,在leaderboard中可进入6%;在BioASQ Task 5A数据集上micro precision优于其他所有方案,micro recall在所有参赛队伍提交的最佳方案中排名第三。