论文部分内容阅读
身处互联网飞速发展的时代,京东、天猫和亚马逊等在线购物网站在人们的生活中扮演着越来越重要的角色,网上购物成为了重要的购买方式。在网上购物时人们往往通过三个途径获取商品信息,图片、产品参数和评论。卖家已经美化过图片中隐藏的商品信息,产品参数可能过于专业化,并非所有人都可以看懂,评论数据的可读性与丰富性使得评论往往会成为顾客决定是否购买的标尺。但是评论数量是巨大的,如何将这些评论有效整理并建立商品评价模型,帮助顾客挑选商品、帮助卖家改进产品是本文研究的重点。以往的商品评价模型主要有两类,一类是基于产品参数,该方法认为产品的好坏完全是由硬件决定的,忽视了顾客的使用体验,当然省时省力是该方法的优点。另一类是基于问卷调查,该方法将顾客的感觉放在了第一位,但是问卷的设计、发放、回收和整理的过程耗时耗力。而笔者建立的基于评论数据的商品评价模型有着省时省力和贴合用户使用体验的优点。本文在建立商品评价模型时主要完成以下工作:1.数据的获取与清洗。利用python对电商网站的评论数据进行爬取,定制相应爬虫规则。重复的获取数据、虚假评论的重复性和无意义评论之间的相似性,为了减少以上三种情况对于最终评价模型的影响,笔者这利用文本相似度计算对评论数据进行了清洗。2.情感单元的抽取。本文使用基于词典匹配的情感单元提取模型,将不规则的评论数据转化成规范的问卷式数据。为了提高情感抽取的准确性和完整性,笔者使用Apriori模型扩充知网提供的正负面评价词典,最终评估发现该情感模型对于短句情感单元抽取的正确率已经达到90%。3.商品评价模型的建立。即利用LDA模型对评论进行分析,找出评论中潜在主题建立指标体系。接着为了使高质量高认可的评论对于商品最终评价结果影响更大,建立了评价的有效度模型,最终选用了模糊评价模型对商品进行评价分析,模糊矩阵的构造则依靠有效度模型的结果。笔者使用三部小米手机的评论建立基于商品评论的评价模型,通过评价结果可以知道电池容量和手机屏幕方面小米max略胜一筹,与产品参数非常一致。在照相功能上,单纯考虑手机参数小米5s应该获得第一,但是评价结果却是小米5s惜败于小米5,通过分析评论发现小米5s拍照会出现无法对焦、轻微抖动照片不清晰和像素不够的问题。通过分析评价结果可以发现,笔者结合爬虫、情感分析技术和统计知识建立的基于情感分析的商品评价模型,既省时省力,评价结果也非常贴合顾客使用体验。