论文部分内容阅读
Web2.0技术在过去几年的快速发展极大地改变了人们的生活模式,其中最为显著的改变之一就是购物模式的改变。随着电子商务的蓬勃发展以及各种Blog、BBS、虚拟社区等网络媒介的兴起,使得人们在购物后可以方便地通过这些媒介发表个人见解或评论。挖掘这些已有的产品评论信息,不仅可给潜在的消费者提供必要的购物参考,而且还有助于商家及时跟踪产品使用者的回馈信息,使得商家在后续的市场战略中继续保持优势产品的特性并及时改进劣势产品,最终提高自身的市场竞争力。然而,随着网络评论数量的急剧增长,评论内容的千差万别及其质量的良莠不齐,因此如何从海量评论中获取有效的信息又是一大难题。在此背景下兴起的“评论情感分析”或“评论意见挖掘”吸引了广大研究人员的关注。评论情感分析的研究内容主要涉及评论整体的意见倾向分析、评论中的产品特征挖掘、评论中的主客观内容识别及垃圾评论检测等。
本文以中文网络产品评论为研究对象,重点研究了文本情感分析涉及的两个主要领域:即基于文档级的评论整体褒贬分类,以及更细粒度的基于产品特征的情感分析。论文所做的研究工作和创新点如下:
■提出了一种基于无监督学习的方法--APSWE来自动挖掘产品评论中的情感词,并基于提取出的情感词对评论进行整体的情感倾向判断。该方法无需对评论进行中文分词预处理,借助少量的种子情感词和一些语言特征,然后利用固定长度的滑动窗口就可提取候选情感词。实验表明与朴素贝叶斯分类法、支持向量机分类法等有监督学习的方法相比,多数情况下本文提出的无监督学习方案的性能超过了监督学习方案,同时该方法也优于现有针对中文评论的无监督学习方案。
■针对细粒度的基于产品特征的情感分析,提出了利用Apriori关联规则算法来对产品评论进行特征提取,并用基于统计的方法调整k项集中各特征之间的顺序;为进一步筛选出有意义的产品特征,本文改进了经典的PMI计算公式,以便于计算候选特征与产品的语义关联;最后在已获取产品特征的基础上结合HowNet提供的情感词典,对各特征上进行观点倾向性分析。实验结果表明,该方法能有效提取评论中的产品特征。