论文部分内容阅读
网络上各种论坛、BBS、虚拟社区有着丰富而又繁杂的用户评论,如何从这些评论文本中挖掘对于产品性能的意见信息,越来越受到国内外研究者的关注。从网络评论中挖掘评价意见,不仅可以为潜在的产品购买者提供参考意见,还可以方便商家跟踪产品使用者的反馈。本文研究的目的是改进特征抽取算法和意见挖掘算法,使之适用于中文处理,并最终实现一个产品的网络评价分析原型系统。本文在对意见挖掘方向现有的研究成果、算法、思想进行分析和总结的基础上,结合中文语言本身的特点,提出了基于关联规则的产品特征抽取算法和基于句法分析的意见分析算法,并设计一个基于Google API的网络评论分析系统,通过实践分析和总结这两个算法在应用中可能存在的问题。本文的主要研究工作和创新点如下:首先,针对产品特征在用户评论中表现为评论对象,并且与领域术语一样具有领域相关的特点,应用关联规则的方法从评论数据库中自动抽取产品特征。这种方法在英文语言的处理中,已经被证明是可行的和有效的,本文通过改进之后用于中文处理。其次,针对产品特征本身的特点,本文应用了多种特征过滤算法。根据产品特征与领域相关的特点,设计领域相关度过滤算法,可过滤不准确的单名词;根据产品特征在文本中以词组的形式出现的特点,设计非短语过滤算法,剔除特征候选中不能构成名词短语的名词模式。再次,针对评论语句中主观情感表达和句法表达复杂的情况,提出利用句法分析器剖析句子结构,以识别极性词与修饰副词的依存关系,以及极性词与产品特征的依存关系。基于这个方法,本文设计了极性词的上下文极性分析算法和极性词与产品特征配对分析算法,并将算法用于分析评论句子的意见极性和强度。最后,本文设计了一个基于Google API自动分析产品的网络评价的原型系统,通过限定查询式中的关键词准确找到相关的意见型主观文本。本文通过原型系统构建的实践,分析特征抽取算法和意见分析算法在具体应用中出现的问题,发现算法的不足之处和改进方向。