论文部分内容阅读
属性类别分类任务是属性级情感分析研究中的一项关键子任务,旨在识别给定的产品在线评论文本所涉及的属性类别。该任务不但可以帮助商家了解消费者所关注的产品属性,挖掘潜在的商业价值,而且可以帮助消费者筛选出与他们感兴趣的产品属性相关的评论,作为购买心仪产品的决策依据。随着我国电商业务的迅速发展,各大电商平台的产品在线评论出现了一种新的文本交互形式,即“问答式评论文本”。虽然面向传统评论文本的属性类别分类已有一定的研究,但是针对问答式评论文本的研究尚处于起步阶段。因此,本文首先制定面向问答式评论文本的属性级语料标注规范,通过人工标注的方式构建用于实验的高质量语料库,其次在此基础上针对问答式评论文本的属性类别分类任务展开深入研究。本文的研究内容主要包括以下三个方面:首先,在问答式评论文本中,问题文本和答案文本通常较短,包含的词汇数目非常有限,且存在答案文本对问题文本没有提及的属性类别作出回答这一情况。针对上述问题,本文提出一种基于多注意力机制表示的属性类别分类方法。其核心思想是首先利用句子切分算法将答案文本切分成不同的句子,尽可能使答案文本的每个句子仅包含一个属性类别,其次利用多注意力机制表示来捕捉问题文本与答案文本的各句子之间相匹配的信息,从而利用答案文本包含的与属性有关的信息来扩充问题文本的特征表示。实验结果表明,本文提出的方法能够较好地利用答案文本中包含的属性信息,其属性类别分类的性能明显优于卷积神经网络等其他神经网络分类方法。其次,针对问题文本和答案文本均涉及到多个属性类别且它们之间不是完全匹配的这一情况,本文提出一种基于分层匹配注意力机制的属性类别分类方法。该方法的特色在于首先对问题文本和答案文本进行句子切分,并为每条问答式评论文本构建多个(句子,句子)单元。其次,利用问答匹配注意力层对每个(句子,句子)单元进行编码来匹配问题文本和答案文本的各个句子。最后,利用高阶自匹配注意力层来捕捉不同的(句子,句子)单元对于识别属性类别的重要程度,从而更好地扩充了问题文本的特征表示。实验结果表明,本文提出的方法能够进一步提升属性类别分类的准确率,同时也进一步证明了注意力机制对于问答式评论文本的属性类别分类任务的有效性。最后,考虑到各领域的属性类别由属性描述语归纳总结得到,因此属性描述语的抽取可以辅助属性类别的预测。本文提出一种基于联合学习的属性类别分类方法,利用属性描述语抽取任务来提升属性类别分类任务的性能。具体而言,首先通过共享的双向长短期记忆网络层产生两个任务所需要的问题文本的隐向量表示,其次,对于属性描述语任务,通过条件随机场层对问题文本进行序列标注,从而抽取出属性描述语,同时,对于属性类别分类任务,基于注意力机制捕捉问题文本和答案文本之间的匹配信息,从而利用文本中潜在的属性信息来扩充问题文本的特征表示。实验结果表明,本文提出的联合学习方法有助于提升属性类别分类的准确率。