论文部分内容阅读
随着互联网的发展和网民数量的增加,网上电子商务市场也在不断扩大。伴随着电子商务的发展,网上的产品评论也越来越多。商家和网民都希望能有高效而准确的工具来处理这些产品评论,自动给出评论的摘要。面对着这种需求,研究者提出了情感分析技术,该技术可以识别出产品评论中的某个语言单位——词、短语、句子或篇章——是褒义还是贬义,而且可以量化褒贬义的程度。
目前的情感分析技术还存在一些弱点:无法识别某句话是对某一产品的总体评价还是对该产品某部分或特征的评价。这就影响了对评论信息的分析:例如,某个客户只对产品的一个特征感兴趣,如只对数码相机镜头的参数感兴趣;或者,另一个客户希望针对产品的每个特征将检索到的评价聚类;目前的情感分析方法将无法满足这位客户的需求。
为了改进情感分析的结果,我们最好能识别-出每个情感词是针对产品的哪个特征。这样细化后的情感分析结果,有助于对产品评论进行进一步的研究。为了改进目前的情感分析技术,我们提出了一种基于聚类的方法,可以用来识别情感词的作用对象,即把褒贬义词和所评价的产品特征关联起来。该方法包括产品特征识别、褒贬义词识别和聚类算法等步骤。本文的创新点和主要贡献包括:
对中文产品评价文本给出了一个算法,可以识别褒贬义词所评价的产品特征。
利用中文概念词典(CCD),将语义知识和聚类算法结合起来,改进了产品特征识别和聚类的效果。
利用文本的结构信息,并使用命名实体识别技术,改善识别的结果。
使用多种属性,充分利用文本中的信息,以提高聚类结果的准确率。