论文部分内容阅读
随着互联网的迅速发展和普及,网络逐渐成为消费者发表产品评论的重要平台。对于产品生产厂商和消费者而言,面对网络上如此纷繁复杂的评论信息,如何迅速有效地获取这些评论的总体情感倾向(正面评价还是负面评价以及褒贬的程度,以及正负评价各占的比例)就成为了一个新的问题。意见挖掘技术的出现,正是为了解决这个问题。它融合了信息检索、信息抽取、文本分类、机器学习、自然语言处理、本体论(Ontology)等技术,具有一定的文本理解能力,更具有人工智能性。意见挖掘主要包括了四项任务:主题抽取、意见持有者识别、陈述界定以及意见倾向分析。主题抽取和意见倾向分析是意见挖掘中的基础和重点。本文使用了特定领域的中文产品评论(手机数码类)作为研究语料,着重研究了意见挖掘中的第一项和第四项任务,即主题抽取和意见倾向分析。本文具体做的研究包括了这样两个问题:一是如何识别和提取产品评论中主题词、极性词;二是如何识别极性词的情感倾向。对于第一个问题,本文尝试提出了一种基于中文汉语语法模式(Chinese Syntax Pattern,简称CSP)的方法。该方法利用了汉语语言学方面的相关研究,结合利用训练数据集进行统计的方法,找到几种最为常用的形容词谓语句的语法模式,以此来完成中文意见挖掘中的主题词和极性词提取的任务,通过实验和对比试验,该方法收到了不错的效果。对于第二个问题,本文使用了传统的基于搜索引擎的SO-PMI方法计算极性词的极性,并利用基于统计理论的支持向量机(SVM)来做对比评估。由于SO-PMI算法的NEAR运算需要进一步探讨,采用SVM的方法反而要比SO-PMI方法效果更好。但是,从实际应用的角度来讲,SO-PMI更为简便,而SVM则需要大量的训练数据。另外,本文初步构建了一套领域意见挖掘系统:Digi-OMS。该系统主要包括了主题词、极性词提取模块以及极性识别模块。本文还为该系统构建了极性词典,因为极性词的提取以及极性词的分类都具有重要的作用。结合极性词典中的否定词集合以及程度副词集合,本文还提出了句子极性计算的方法。Digi-OMS系统面向特定领域的中文评论,进行了比较全面的科学实验,已验证本文提出方法的科学性和有效性。总体上讲,其自动分析效果是不错的。本文的主要贡献包括了:1)提出了一种新的方法来解决中文意见挖掘领域中的主题识别问题,效果理想;2)对于极性词的极性分类问题,使用了两种方法做了对比;3)初步构建了一套基于领域的意见挖掘系统;4)提出了极性词典的构建方法以及句子极性分析的方法。