论文部分内容阅读
产品评论意见挖掘就是对在互联网上的电子商务网站中顾客对所购产品发表的评论进行的挖掘。产品评论意见挖掘的主要任务有三个:在产品评论文档中找到能表达情感意见的情感词;判断所找出的情感词的情感倾向性;找出被抽取的情感词语与产品主题特征之间的关系。产品评论的意见倾向分类技术是产品评论意见挖掘的主要任务之一,通过一定的算法对评论进行挖掘得到顾客对所评论产品的主题特征持有的积极或消极的意见。这是文本分类中情感计算的一个热门领域。本文通过采用数据挖掘的技术,从电子购物网站中消费者发表的产品评论文本信息中挖掘出消费者最关心的产品主题特征。结合评论语句的句子特点对产品主题特征进行匹配以进行细颗粒的倾向性分类研究,设计了产品特征词库、意见词词典。为了提高算法的准确率,我们采用了互加强的MRA方法以及聚类技术,通过对统计出的产品主题特征词和相关的情感词语进行多次聚类,来建立我们需要的语义相关集合。在语义相关集合中,通过聚类能提取出词语间的潜在联系,并以此为参照对整个相关产品的特征评论进行挖掘。这种做法一方面提高了分类的准确率,另一方面由于很好的识别出主题特征缺省语句,进而兼顾了意见倾向分类的召回率。我们所做的工作,在于首次完全从顾客的角度出发,建立以顾客中心的产品评论信息,第一次将建立语义相关集合的方法结合聚类、分类技术对产品评论的意见倾向进行分类研究。其结果相比传统方法更加客观且更具说服力。通过实验证明,我们采用的产品主题特征级的意见倾向分析技术,能更好地统计出主题词和情感词对,并根据情感词对进行褒贬分类。它是句子级别以及片段文本级别意见倾向分类的基础。由实验结果得知,我们采用的方法不仅具有较高的准确率,而且召回率也在可以接受范围之内,它能客观地反映了顾客对产品主题特征的评论信息。