论文部分内容阅读
随着互联网应用的普及,越来越多的人们开始利用网络表达个人的情感和态度等方面的内容,这其中就包含了很多产品的使用者对某种产品的使用评价。这些丰富的评价内容为企业的客户知识获取提供了新的途径。然而,Web上评价内容的书写不规范性给评价知识的获取带来了很大的困难。本文在前人的研究基础之上,提出了基于情感分析的客户评价知识获取方法,主要研究内容包括以下几个方面:(1)针对Web上客户评价内容的特点,本文详细分析了从Web数据源中获取客户评价知识的过程,并对每个过程所要实现的功能以及实现这些功能需要用到的方法和关键技术做了详细的阐述,提出了基于情感分析的客户评价知识获取框架。(2)客户对产品的评价是通过评价词来表现的,因此客户评价内容的确定可以通过情感词语来判断。为此,本文构建了情感词词库,提出了基于情感词词表的评价句子识别方法。(3)产品的特征抽取是分析客户对产品具体特征的情感倾向的前提。特征词抽取方法的优劣直接关系到客户评价知识获取的准确度。为此,本文在前人的研究基础上,提出了基于关联规则Apriori算法的产品特征词自动抽取方法。(4)在产品评论句子中,产品特征与对应的评价词间匹配关系的获取是客户评价知识获取的重要内容,只有确定了产品特征词与评价词语间的对应关系,才能正确地获取到客户对具体产品特征的具体评价知识。为此,本文提出了基于最大熵模型的产品特征词与评价词语匹配关系的自动抽取方法。最后,结合本文的研究成果和汽车制造企业的知识获取,本文设计和开发了一个汽车领域的客户评价知识获取系统,实现了自动地从Web数据源中获取到有关汽车产品的客户评价知识,从而验证了本文提出的方法的有效性。