论文部分内容阅读
随着网络的发展以及数字化终端设备的普及,互联网文本数据成为人们获取信息的重要来源,但是文本数据非结构化的特性使人们难以理解、利用数据中有价值的信息。自然语言处理为该问题提供了行之有效的解决方案——借助文本分类、信息抽取、语义计算等任务,从海量的文本数据中快速准确地挖掘有用信息。然而基于传统机器学习算法的自然语言处理方式有诸多弊端:该方式依赖复杂的特征工程构建文本特征;传统模型难以对灵活多样的文本序列建模;流水线式的模型搭建可能导致错误传播。深度学习给自然语言处理带来变革,在一定程度上解决了传统方法的不足:网络模型利用众多参数自动学习文本特征;灵活多变的网络架构更容易对文本序列建模,为解决机器翻译等任务带来新的研究方式;端到端的训练方式避免了错误传播。本文面对从互联网海量职位招聘文本中进行岗位技能挖掘统计这一实际任务目标,设计了不同种类的深度神经网络实现招聘要求语义理解任务。论文主要工作内容如下:(1)提出一种多粒度卷积核卷积神经网络(Multi-Granular Convolutional Neural Network,MGCNN)与双向长短期记忆网络(Bidirectional Long Short Term Memory Network,Bi LSTM)二者结合的模型(多粒度卷积核CNN-Bi LSTM)用于文本分类。该模型利用不同“感受野”(Receptive field)的卷积核提取文本中不同粒度的特征构建特征图,并通过Bi LSTM进一步对特征图建模,捕获特征间的内在关联,得到表示能力更加丰富的特征向量。实验表明,在判断招聘要求是否包含岗位技能的4分类任务中,该模型的平均F1-Score为93.56%,分别比多粒度卷积核CNN模型和Bi LSTM模型高0.62%和1%。(2)构建由多粒度卷积核CNN-Bi LSTM模型作为表示层的镜像网络,并用该镜像网络计算文本语义相似度。在基于语义相似性的岗位技能去重实验中,使用多粒度卷积核CNNBi LSTM模型作为镜像网络表示层时,其F1-Score分别比MLP模型、CNN模型和Bi LSTM模型作为表示层高3.19%、0.04%和0.76%。(3)引入Pointer注意力机制到编码器-解码器模型中,构建端到端的信息抽取模型。该模型能够同步进行文本语义重组生成“语义块”和“语义块”类别预测两个任务,避免传统编码器-解码器模型使用两个序列标注器分步执行两个任务产生的误差传播。在语义重组任务中,该模型还有效利用了长度、边界等“语义块”自身信息,提高生成“语义块”的准确性。实验表明,该模型在生成“语义块”并标注其类别的任务中平均F1-Score为90.42%,比传统的编码器-解码器模型高1.11%。(4)将基于Pointer结构优化的编码器-解码器模型迁移到与训练数据(源数据)文本特征相似的其它数据(目标数据),解决目标数据由于数据过少或缺乏标注导致无法训练模型的问题。实验表明,如果目标数据的词汇、语法或语义等文本特征接近预训练模型的源数据时,基于Pointer结构优化的编码器-解码器模型在多个目标数据上岗位技能抽取的平均F1-Score为90.62%,而在源数据F1-Score为90.67%。