基于SO-PMI和句法信息的产品评论挖掘研究——基于淘宝手机语料分析

来源 :西南财经大学 | 被引量 : 0次 | 上传用户:yaci
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web2.0技术的深入应用以及电子商务的越发繁荣,人们越来越倾向于在网上购买自己需要的产品,并在体验一段时间后在商家提供的产品评论平台上表达自己对产品的观点和使用感受。同时,对于消费者来讲,商品评论信息是他们在进行商品选择时一定会借鉴和参考的非常有价值的信息。对产品评论进行意见挖掘,不仅能为用户在选择商品的时候提供购买决策支持,还可以帮助销售商和生产商根据消费者对产品的体验而反馈的信息来指导产品和服务的改进,提高消费者的产品服务满意度,从而为企业带来更多利益和提高企业产品竞争力。面对互联网上如此海量的产品评论信息,人工单条处理是不现实的,对商品评论实现自动化或半自动化挖掘可以显著提高产品评论信息变为知识的速度,不仅对消费者快速明确商品性价比有好处,而且对商家进行产品和服务改进也提供了更高效、低错误的信息归纳,因此,产品评论挖掘具有巨大的现实意义和经济价值。
  商品评论挖掘是伴随着互联网购物而逐渐发展起来的富有挑战性的一个新研究方向,是文本挖掘中的一个具有重要现实价值的分支领域。本文的具体研究内容包括两个方面,一方面是实现针对购物产品评论语料的产品评论挖掘,实现产品特征的归纳汇总,让用户看到更细粒度的产品特征而不是笼统的一个总体好评差评值,并将各个特征情感极性强度数值化,方便用户了解产品在何种特征上受到用户的认可,又有哪些方面存在不足。另一方面对挖掘中用到的相关方法进行改进。
  本文使用的语料为网上抓取的小米手机语料。针对评论信息挖掘中的两个关键步骤:抽取商品相关的特征以及对情感词的褒贬倾向进行划分。在特征抽取上使用了著名的Apriori关联规则进行特征预处理然后结合邻近规则得到产品特征词组,最后用独立支持度进行特征筛选。由于在特征预选取上一般使用的都是名词,可能会忽略一些其他词性的特征词。本文针对这个问题提出了结合正则表达式“不及物动词、副词、形容词”的抽取模式人工抽取了部分明显可以表示特征的不及物动词作为特征词,并将它们在分词阶段作为名词加入词性标注。这样邻近规则生成的特征词组就不仅包含名词与名词形成的特征词组,而且包含名词与不及物动词形成的特征词组,使得得到的商品特征词汇更加全面。
  然后,在情感抽取方面利用改进的SO-PMI算法进行情感抽取。PMI算法计算一般需要依赖大量的语料数据,常见的为网页页面检索或者结合词典,这些都是相当巨大的语料库数据。那么是否存在其他很容易得到的情感语料也可以作为其检索的语料?本文使用了从网上抓取的手机评论语料作为其情感判断检索语料。原因有两个。第一,手机评论语料的形成的情感词典更容易用于手机产品评论挖掘中的情感极性判断,因为语料都是描述手机的。第二,容易获取,且数据预处理上比较方便。但是这样的语料存在的问题是评论文本短小,情感极性分布不均衡。而SO-PMI算法是基于假设正面积极的词汇一般与正面积极的词汇一起出现,负面消极的词汇一般与负面消极的词汇一起出现。本文选取的检索语料库为淘宝上关于手机的评论语料库,该语料库有个特点就是总体评论语料是倾向于正面情感的,褒义词与褒义词同时出现的概率非常大,贬义词与贬义词同时出现的概率则不显著,而且贬义词与褒义词出现的概率也很大。这导致Turney最初的褒义褒义经常共现,贬义与贬义经常共现的假设失效。而本文提供的PMI结合句法方法可以在褒贬义分布不均衡的语料上计算情感词极性,且相对于传统PMI方法取得了比较好的效果。
  接着在前面得到的特征词汇和情感词库的基础上使用正则模式抽取特征情感对,将程度副词分类后赋予一定的极性强度,从而得到每个特征的观点和情感强度,并通过可视化的图表形式从特征这样细粒度的角度显示褒贬极性强度,并发现了某些产品组件用户评价比较差,从而让用户更加细粒度的了解产品,方便用户决策。
其他文献
随着计算机软硬件的不断发展,移动设备逐渐进入人们的生活,其应用越来越广泛,性能也越来越受到重视。由于移动设备不同于PC机直接接入220V用电线路,需要电池的支持,并且需要适应使用场景和环境变化。移动设备需要稳定和持久的使用,因此其容错能力和电池持久性成为衡量性能的重要指标。  本文研究移动设备环境下功耗优化的容错策略设计,旨在提高移动设备容错能力,并优化功耗。  实验中,选择BLCR检查点机制加载
学位
期刊
随着社会的飞速发展,各个领域的研究针对不同的需求,需要对各种数据类型的大量数据进行分析,这就要求灵活并且高效的大数据处理平台。Hadoop作为开源的大数据并行处理平台,广泛应用于各个领域。但是由于Hadoop自身的工作模式和元数据存储方式,影响着数据并行处理效率。Hadoop并行计算导致网络中数据流量阶段性爆发一定程度上造成网络阻塞;Hadoop工作对主节点的依赖,在高频率工作的情况下,对主节点造
学位
学位
随着我国经济迅猛的发展,城市道路上的汽车越来越多,这给人类的出行带来了极大的方便,但也提出了更多的挑战,智能交通系统作为缓解交通压力的一种解决方案,其技术研究和系统的开发就变得尤为重要。车牌识别系统是智能交通系统中的一个重要方面,具有重要的意义和广泛的应用背景。基于DSP、FPGA、PC机的车牌识别系统是目前比较普遍的,但其功耗大、尺寸大、成本高、稳定性不高等特点,决定了我们需要设计一种更便捷,更
期刊
期刊
会议
期刊
期刊