论文部分内容阅读
在互联网时代,各大网站充斥着海量文本信息。问答型情感分析任务旨在从电商评论、微博动态、知乎问答等用户交互的问答对中,挖掘其情感态度。
目前问答型情感分析任务的处理方法,会将问题和回答文本切分为不同句子,对每个句子单独编码,忽略了句子之间的联系,造成了信息损失。为了解决这个问题,提出了分层循环注意力(Hierarchical Recurrent Attention, HRA)模型,在文本切分后,使用RNN(Recurrent Neural Network)对句子内部特征编码,使用自注意力机制对句子之间特征编码,根据每个句子的重要性,将句间特征以一定权重添加到句子内部的每个单词上,共同表示整个文本。此外,针对问题和回答对的信息匹配,采用双向注意力,学习问题和回答之间的交互特征。
BERT(Bidirectional Encoder Representation from Transformers)在自然语言处理领域的很多任务上取得了顶尖的效果,但对输入长度有限制,导致其处理过长文本时需要对句子截断,造成信息损失。为了解决这个问题,提出了基于文本分段的分层BERT注意力(Hierarchical BERT Attention, HBA)模型,首先将长文本切分为BERT能处理的多个短句,使用BERT提取每个短句的完整特征。然后使用自注意力机制,将每个短句的特征作为基本单元,获取所有短句之间的联系,让编码后的总体特征表示整个长文本,有效利用长文本各个部分的信息。
为了验证HRA与HBA模型的有效性,在三个电商问答型情感分析数据集上进行了实验。从实验结果可以看出,HRA能有效解决现有方法中句间信息损失的问题,且比不进行文本分段的RNN速度更快。HBA模型能在限制BERT输入长度时,仍能取得非常好的效果。
目前问答型情感分析任务的处理方法,会将问题和回答文本切分为不同句子,对每个句子单独编码,忽略了句子之间的联系,造成了信息损失。为了解决这个问题,提出了分层循环注意力(Hierarchical Recurrent Attention, HRA)模型,在文本切分后,使用RNN(Recurrent Neural Network)对句子内部特征编码,使用自注意力机制对句子之间特征编码,根据每个句子的重要性,将句间特征以一定权重添加到句子内部的每个单词上,共同表示整个文本。此外,针对问题和回答对的信息匹配,采用双向注意力,学习问题和回答之间的交互特征。
BERT(Bidirectional Encoder Representation from Transformers)在自然语言处理领域的很多任务上取得了顶尖的效果,但对输入长度有限制,导致其处理过长文本时需要对句子截断,造成信息损失。为了解决这个问题,提出了基于文本分段的分层BERT注意力(Hierarchical BERT Attention, HBA)模型,首先将长文本切分为BERT能处理的多个短句,使用BERT提取每个短句的完整特征。然后使用自注意力机制,将每个短句的特征作为基本单元,获取所有短句之间的联系,让编码后的总体特征表示整个长文本,有效利用长文本各个部分的信息。
为了验证HRA与HBA模型的有效性,在三个电商问答型情感分析数据集上进行了实验。从实验结果可以看出,HRA能有效解决现有方法中句间信息损失的问题,且比不进行文本分段的RNN速度更快。HBA模型能在限制BERT输入长度时,仍能取得非常好的效果。