论文部分内容阅读
近年来,随着电子商务、网络论坛、博客等网络技术的飞速发展,越来越多的消费者在网络上进行购物之后对购买的产品发表使用评价,许多在现实中购买产品的客户也会通过论坛、博客等发表自己的使用心得。这些产品评论信息中蕴含着极大的商业价值,它包含了客户对产品的特征和性能各方面持有的褒贬态度倾向,对产品评论进行挖掘,能够得到大量对消费者和商家有用的信息。消费者可以在购物之前根据这些信息对想要购买的产品进行比较和选择,而商家则可以从中发现各自产品的有点和不足,从而对产品进行改进,还可以发现客户所感兴趣的产品特征,从而制定出有效的市场策略。然而,由于网络上日益增长的海量评论信息,人工对这些评论信息进行阅读、统计和分析已经成为不可能的任务,此时产品评论挖掘应运而生。
由于产品评论挖掘技术巨大的潜在应用价值,自从产品评论挖掘的研究2002年在国外兴起以来,很快成为自然语言处理、文本挖掘、机器学习等领域的热点研究问题之一。许多研究工作者对产品评论挖掘中的关键技术如产品特征的挖掘、观点倾向的判断等方面进行了研究和讨论,目前也有一些产品评论挖掘系统的原型出现。然而,目前产品评论挖掘技术的研究集中于英文文本领域,而对中文产品评论挖掘的研究还比较少。本文在前人研究的基础上,对产品评论挖掘过程中的关键技术进行了研究,主要包括以下几个方面:
首先,对产品评论挖掘的研究背景和国内外研究现状进行了介绍和总结。并提出了产品评论挖掘过程的整体框架,针对过程中每个关键步骤的研究现状和相关技术进行了详细的介绍和分析。
其次,针对高频产品特征词和低频产品特征词的提取提出了不同的策略。采用关联规则挖掘技术对高频产品特征词进行挖掘,得到高频特征词和由两个或以上的名词组成的产品特征词。然后借鉴Bootstrapping半监督学习算法的思想,利用得到的高频产品特征词找到观点句的语法模板,并利用该语法模板抽取低频产品特征词。
第三,利用有效观点词的概念,抽取与产品特征词共现的形容词作为观点词。在此基础上,利用HowNet建立基础极性词词典,再加上领域极性词词典、网络情感词典和机型修饰词典一同构建中文极性词词典。然后提出了观点句极性值的计算算法。
最后,对本文提出的研究方法进行了实验,对实验结果进行了评价和分析。并在总结本文工作的基础上,对进一步的研究工作作出了展望。