论文部分内容阅读
情感分析是自然语言处理领域重要的研究方向之一,主要挖掘互联网用户对于事件、产品或者服务等所表达的情感倾向,其在舆情监控、市场决策等方面具有重要的应用价值。对情感分析的问题来说,人或多或少有一些常识性的知识。例如,我们知道“口味-不错”在餐馆的评论中频繁出现;“价格”和“性价比”在语义上都和价格相关等。如何在情感分析中引入这些显然的、易于获取的知识,从而促进和提高情感分析的性能至关重要。引入知识能够简化模型构建,一定程度上减少对标注数据的依赖,从而使得模型的泛化能力更强。因此,本文从融合知识的角度,对情感分析的若干问题深入分析研究,论文研究的主要内容有:?情感抽取,主要指评价词和评价对象的抽取。本文基于大量的评论数据,通过少量的“评价词-评价对象”搭配引入语法知识来实现情感抽取。其中,语法知识为有效的“评价词-评价对象”间频率较高的语法关系,这些语法关系是在大量数据中的统计得来,而不需要人工定义或标注数据。本文提出的方法充分利用了海量评论数据中丰富的语法关系,相比于现有的情感抽取方法具有明显的优势。?情感和维度分类,主要指评论篇章的情感倾向分类和评论中句子的维度分类。本文将句子级别维度的分类和篇章级别的情感分类形式化成一个有结构学习的问题,并且在模型的结构中引入少量的维度指示词。正是因为引入维度词汇知识,使得句子的维度分类不需要人工标注数据。而且,通过对句子维度和篇章情感同时建模,使得情感和维度分类的性能得到显著提高。?针对单篇评论的情感摘要,本文研究了单篇评论中句子内容重要性排序问题。由于评论中的每句话并不具有相同的重要性,本文提出从句子的文本内容和情感倾向两个方面对其重要性进行排序。其中,句子文本内容排序通过引入若干人工准则作为知识训练排序模型,不需要对句子重要性进行标注。?针对多篇评论的情感摘要,本文从用户需求和兴趣角度,研究个性化、定制化的评论摘要生成。本文提出在话题模型中引入情感和维度等语义知识,使得在不增加模型复杂度的同时对评论的情感和维度建模。本文的方法简单有效,并且在评论摘要生成时考虑用户的需求和兴趣,具有一定的应用前景。