论文部分内容阅读
随着互联网用户数量的急剧增加和电子商务的迅猛发展,网络上涌现出许多B2B、B2C网站(如京东商城、淘宝、当当网等)。这些网站有一个共同的特点,就是在产品销售的同时,还为消费者提供了一个发表产品评论的平台。消费者能及时的把自己对商品的评价展现出来,这些评论信息能反馈给商家和潜在的消费者。商家能根据反馈改进商品或调整销售策略,潜在的消费者通过参考别人对商品的评论,做出正确的购物选择。但是互联网的信息数量巨大,如何在大量的评论信息中找到有价值的信息,并全部阅读这些评论做出正确的决策,这是十分困难的,所以急需一种快速、精准的文本信息挖掘方法对海量的评论信息进行分析。另外,伴随着网络语言的变迁,这种挖掘方法必须具有机器学习的能力,实时更新词汇,这样才能得到正确的分析结果。情感分类是文本挖掘的一个应用,是目前人工智能研究领域的热门的课题,很多学者致力于语言和图像的情感表现方面的研究,研究出熟谙并能准确分析汉语情感的人工智能机器学习方法。本文简述了文本挖掘的概念和相关技术,然后着重介绍了在进行评论情感挖掘时涉及的技术,包括序列标注技术、条件随机场(CRFs)算法以及评价指标。在本文的第三章,我们利于上述技术对评论文本情感分类进行深入探讨,我们采用文本分类领域的特征选择确定特征模板,然后通过字标注系统,将评论文本情感分类问题转换为序列标注任务,最后采用CRFs机器学习的方法对其情感分类。另外,我们提出了一种情感强弱的评分机制对情感分类结果进行排名。实验结果表明基于CRFs的评论情感分类能达到较高的准确率,对于分类结果的情感强弱排名也比较符合客观事实。本文的主要贡献在于以下几个方面:1.基于传统的正反两种情感倾向的情感词典基础上,采用《知网》的计算词语相似度方法,考虑了情感词的词性、程度副词、否定词对情感倾向的影响,构建了一个较为完备的情感词典。2.采用序列标注技术,将CRFs机器学习方法引入到评论文本情感分类中,得到了较高准确度分类结果。3.提出了一种基于最大熵的排名算法对情感倾向的强弱进行排名,使得分类结果更加客观。最后,本文构建了一个基于互联网的产品评论信息情感分类系统,该系统将情感分类结果以列表的形式展现出来,用户可以从中得到有价值的信息。