论文部分内容阅读
随着Web2.0技术的深入应用以及电子商务的越发繁荣,人们越来越倾向于在网上购买自己需要的产品,并在体验一段时间后在商家提供的产品评论平台上表达自己对产品的观点和使用感受。同时,对于消费者来讲,商品评论信息是他们在进行商品选择时一定会借鉴和参考的非常有价值的信息。对产品评论进行意见挖掘,不仅能为用户在选择商品的时候提供购买决策支持,还可以帮助销售商和生产商根据消费者对产品的体验而反馈的信息来指导产品和服务的改进,提高消费者的产品服务满意度,从而为企业带来更多利益和提高企业产品竞争力。面对互联网上如此海量的产品评论信息,人工单条处理是不现实的,对商品评论实现自动化或半自动化挖掘可以显著提高产品评论信息变为知识的速度,不仅对消费者快速明确商品性价比有好处,而且对商家进行产品和服务改进也提供了更高效、低错误的信息归纳,因此,产品评论挖掘具有巨大的现实意义和经济价值。
商品评论挖掘是伴随着互联网购物而逐渐发展起来的富有挑战性的一个新研究方向,是文本挖掘中的一个具有重要现实价值的分支领域。本文的具体研究内容包括两个方面,一方面是实现针对购物产品评论语料的产品评论挖掘,实现产品特征的归纳汇总,让用户看到更细粒度的产品特征而不是笼统的一个总体好评差评值,并将各个特征情感极性强度数值化,方便用户了解产品在何种特征上受到用户的认可,又有哪些方面存在不足。另一方面对挖掘中用到的相关方法进行改进。
本文使用的语料为网上抓取的小米手机语料。针对评论信息挖掘中的两个关键步骤:抽取商品相关的特征以及对情感词的褒贬倾向进行划分。在特征抽取上使用了著名的Apriori关联规则进行特征预处理然后结合邻近规则得到产品特征词组,最后用独立支持度进行特征筛选。由于在特征预选取上一般使用的都是名词,可能会忽略一些其他词性的特征词。本文针对这个问题提出了结合正则表达式“不及物动词、副词、形容词”的抽取模式人工抽取了部分明显可以表示特征的不及物动词作为特征词,并将它们在分词阶段作为名词加入词性标注。这样邻近规则生成的特征词组就不仅包含名词与名词形成的特征词组,而且包含名词与不及物动词形成的特征词组,使得得到的商品特征词汇更加全面。
然后,在情感抽取方面利用改进的SO-PMI算法进行情感抽取。PMI算法计算一般需要依赖大量的语料数据,常见的为网页页面检索或者结合词典,这些都是相当巨大的语料库数据。那么是否存在其他很容易得到的情感语料也可以作为其检索的语料?本文使用了从网上抓取的手机评论语料作为其情感判断检索语料。原因有两个。第一,手机评论语料的形成的情感词典更容易用于手机产品评论挖掘中的情感极性判断,因为语料都是描述手机的。第二,容易获取,且数据预处理上比较方便。但是这样的语料存在的问题是评论文本短小,情感极性分布不均衡。而SO-PMI算法是基于假设正面积极的词汇一般与正面积极的词汇一起出现,负面消极的词汇一般与负面消极的词汇一起出现。本文选取的检索语料库为淘宝上关于手机的评论语料库,该语料库有个特点就是总体评论语料是倾向于正面情感的,褒义词与褒义词同时出现的概率非常大,贬义词与贬义词同时出现的概率则不显著,而且贬义词与褒义词出现的概率也很大。这导致Turney最初的褒义褒义经常共现,贬义与贬义经常共现的假设失效。而本文提供的PMI结合句法方法可以在褒贬义分布不均衡的语料上计算情感词极性,且相对于传统PMI方法取得了比较好的效果。
接着在前面得到的特征词汇和情感词库的基础上使用正则模式抽取特征情感对,将程度副词分类后赋予一定的极性强度,从而得到每个特征的观点和情感强度,并通过可视化的图表形式从特征这样细粒度的角度显示褒贬极性强度,并发现了某些产品组件用户评价比较差,从而让用户更加细粒度的了解产品,方便用户决策。
商品评论挖掘是伴随着互联网购物而逐渐发展起来的富有挑战性的一个新研究方向,是文本挖掘中的一个具有重要现实价值的分支领域。本文的具体研究内容包括两个方面,一方面是实现针对购物产品评论语料的产品评论挖掘,实现产品特征的归纳汇总,让用户看到更细粒度的产品特征而不是笼统的一个总体好评差评值,并将各个特征情感极性强度数值化,方便用户了解产品在何种特征上受到用户的认可,又有哪些方面存在不足。另一方面对挖掘中用到的相关方法进行改进。
本文使用的语料为网上抓取的小米手机语料。针对评论信息挖掘中的两个关键步骤:抽取商品相关的特征以及对情感词的褒贬倾向进行划分。在特征抽取上使用了著名的Apriori关联规则进行特征预处理然后结合邻近规则得到产品特征词组,最后用独立支持度进行特征筛选。由于在特征预选取上一般使用的都是名词,可能会忽略一些其他词性的特征词。本文针对这个问题提出了结合正则表达式“不及物动词、副词、形容词”的抽取模式人工抽取了部分明显可以表示特征的不及物动词作为特征词,并将它们在分词阶段作为名词加入词性标注。这样邻近规则生成的特征词组就不仅包含名词与名词形成的特征词组,而且包含名词与不及物动词形成的特征词组,使得得到的商品特征词汇更加全面。
然后,在情感抽取方面利用改进的SO-PMI算法进行情感抽取。PMI算法计算一般需要依赖大量的语料数据,常见的为网页页面检索或者结合词典,这些都是相当巨大的语料库数据。那么是否存在其他很容易得到的情感语料也可以作为其检索的语料?本文使用了从网上抓取的手机评论语料作为其情感判断检索语料。原因有两个。第一,手机评论语料的形成的情感词典更容易用于手机产品评论挖掘中的情感极性判断,因为语料都是描述手机的。第二,容易获取,且数据预处理上比较方便。但是这样的语料存在的问题是评论文本短小,情感极性分布不均衡。而SO-PMI算法是基于假设正面积极的词汇一般与正面积极的词汇一起出现,负面消极的词汇一般与负面消极的词汇一起出现。本文选取的检索语料库为淘宝上关于手机的评论语料库,该语料库有个特点就是总体评论语料是倾向于正面情感的,褒义词与褒义词同时出现的概率非常大,贬义词与贬义词同时出现的概率则不显著,而且贬义词与褒义词出现的概率也很大。这导致Turney最初的褒义褒义经常共现,贬义与贬义经常共现的假设失效。而本文提供的PMI结合句法方法可以在褒贬义分布不均衡的语料上计算情感词极性,且相对于传统PMI方法取得了比较好的效果。
接着在前面得到的特征词汇和情感词库的基础上使用正则模式抽取特征情感对,将程度副词分类后赋予一定的极性强度,从而得到每个特征的观点和情感强度,并通过可视化的图表形式从特征这样细粒度的角度显示褒贬极性强度,并发现了某些产品组件用户评价比较差,从而让用户更加细粒度的了解产品,方便用户决策。