论文部分内容阅读
如何快速、准确地获取互联网上商品的评论信息,分析出其蕴涵的褒贬倾向,对商家掌握消费者喜好变化和辅助潜在消费者做出购买决策等方面都具有极其重要的意义。然而采用人工方式对互联网上如此浩如烟海的无结构的评论信息进行筛选、归纳是一个费时费力的过程。因此,文本的倾向性分析研究成为了当前自然语言处理的一个研究热点。本文旨在研究倾向性分析中评价对象和评价词识别、情感词语义倾向判别等关键性技术,根据现有研究所存在的瓶颈,结合统计学、语义分析学等方法,探索领域本体对倾向性分析提供的支持和作用,论文主要完成的工作如下:(1)针对目前大部分基于规则的评价对象抽取方法只能找出频繁的评价对象,对于非频繁评价对象抽取的准确率较低的缺点,以汽车领域为例,给出了一种组合式领域概念获取方法,从而克服了统计学在概念获取时语义信息上的缺失,利用Protege工具构建汽车领域本体,尝试采用基于领域本体和SBV的评价对象、评价词的二元组抽取算法(I-SBV),以提高评价对象抽取的准确率,并实现产品属性关系的识别。(2)考虑到现有情感词典在构建过程中忽略了评价对象对情感极性的影响,同时根据网络语言常常出现缩写、简写等情况,构建了针对汽车领域的情感词典,包括静态情感词典、动态情感词典、修饰词词典三部分,其中静态情感词典融入了网络常用词,运用扩展的SO-PMI算法对未登录情感词极值进行计算,并给出了动态情感词倾向值的计算公式,为实现基于情感词典的倾向性分析提供了良好的基础。(3)以领域情感词典为基础,考虑到修饰词对评价词语倾向值的影响,给出了情感词上下文极性值的计算方法。将情感词短语和评价对象作为计算句子极性值的基本单位,利用本体概念及其属性间的关系对情感词倾向值进行加权求和,从而得到句子倾向值,实现句子级倾向性判别。基于上述研究,完成了针对汽车论坛的评论倾向性分析系统的设计与实现。