论文部分内容阅读
随着智能互联网时代的到来,人们大量使用移动设备对购物、旅游等活动发表自己的看法和评论。这些评论的数目急速增长,很多网站的评论数目达到千万量级甚至更多。由于数量巨大,用户在浏览时非常费时,急需对大量评论做有效摘要以缓解阅读压力。不同于一般的文本摘要,在对评论进行摘要时,用户对评论对象的aspect以及相应的评价意见信息尤为关注,因此,需要特别进行这些信息的抽取和挖掘,并在此基础上开展评论的摘要。为此,本文在分析相关工作的基础上,从评论信息抽取和摘要两方面开展工作,其主要内容包括:提出了一种基于多关联自举的评论信息抽取算法。定义并量化了评论句中三种aspect词和意见词之间的关联关系,基于此构建了半监督自举算法。该算法首先从给定的评论语料中抽取一组候选aspect词和一组候选意见词作为初始种子集,依据定义的三种关联关系,循环提取与种子集合有强关联的词语。实验结果显示在手机评论语料集上的F-measure为78.8%,比基线DP模型高9.6%,表明算法能够较有效提取aspect词及其对应的意见词,且实验对比曲线表明算法对于种子集的规模要求较低,降低了标注成本。提出了一种基于潜在狄利克雷(LDA)的SentenceTagLDA模型。模型包含三个组件,分别建模词的主题、情感和词性分布,利用隐马尔可夫(HMM)状态转移模拟评论句中各属性词及其意见词的产生过程,在主题词的生成过程中融合词性及情感生成过程。在TripAdvisor数据集上的实验结果显示精确率比基准模型高1.3%,召回率提高28.07%,表明该模型在精确率、召回率等指标上均表现出了较好的性能,有益于建模评论信息的主题词及其情感分布。提出了一种基于层次注意力网络的摘要句子提取模型。该模型具有编码器-解码器结构,模型中引入了两层注意力机制,句子编码器利用注意力机制通过引入aspect词得到句子的向量化表示,评论文档编码器利用注意力机制实现前后句子的上下文关联,解码时,首先通过一个由LSTM网络构成的句子输出器对句子做出是否选用为摘要句候选的标记,用贪婪算法对标记结果做冗余剔除,再基于句子的重要性进行排序得到最终摘要。采用ROUGE方法评测实验,结果显示,本文模型在TripAdvisor数据集得到的ROUGE-2分值为7.95%,高于参考基准模型。通过加入两层注意力机制与否,对比验证各层的效果,在加入句子注意力机制时,ROUGE-2分值比无注意力机制高6.799%;在加入文档注意力机制时,ROUGE-2分值相比提高5.91%。实验结果表明注意力机制对于摘要句子提取有较好的效果,并通过可视化颜色标记方法,验证了排序对摘要效果的积极影响。设计并实现了一个在线评论的自动摘要原型系统。该系统综合应用了上述aspect提取、主题计算以及摘要句子选取等关键算法,以可视化的方式显示摘要结果。