基于在线评论文本挖掘的用户满意度因素探究

来源 :科技信息·学术版 | 被引量 : 0次 | 上传用户:liyunfeng890406
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:如今,网络评论已成为消费者了解商品信息、购买商品的重要影響因素,海量用户的频繁交易形成了大量的在线商品评论,从而提供了极具价值的文本信息。本研究基于信息采纳模型的框架,以京东平台的数码影音产品为研讨对象,利用网络爬虫收集用户评论,然后对评论内容进行文本挖掘,概括出数码影音产品中影响用户满意度的六个因素:做工质感、商家服务、续航能力、音质音效、产品特色、佩戴感受。研究结果可帮助厂商、京东平台店铺制定产品的改进和营销策略。
  关键词:在线评论挖掘;数码影音产品;用户满意度;LDA
  引言
  随着移动互联网技术的发展,电子商务凸显出巨大潜力,为人们的生活方式带来了巨大改变,也重塑了诸多行业的贸易机制。由于线上交易的虚拟性,继而催生了如用户生成内容(UGC)等许多独有的消费者行为,体现在网络购物市场上就是用户在线评论。有学者认为,在线上购物环境下用户在线评论已成为消费者了解商品质量信息、降低购买风险性进而确定是否购买的重要信息资源。因此,如何提高服务质量,进而提升消费者网购体验,成为维持用户满意度和持续增长重要因素。
  CNNIC最新公布的《第47次中国互联网络发展状况统计报告》,截至2020年12月,我国的线上购物用户规模已经达到7.82亿[1];然而,根据《2020年度中国电子商务用户体验与投诉监测报告》显示, 2020全年,我国线上购物的投诉占全体投诉的59. 97%,网络购物领域如此高比例投诉量,除去其自身商业模式的影响,更体现出此行业依然存在大量消费体验不佳现象[2]。而当今的市场竞争愈发激烈,电商行业已经从抢占市场份额的战略逐渐向强调服务质量和用户体验的战略转移,同时总体市场发展的趋势也逐渐由“价格驱动”转向“服务驱动”,因此,如何帮助电商企业和经营商家提升网购顾客体验质量,辅助企业进行运营管理,成了急需解决的问题。
  网购消费者在购买商品后,常会发表商品评价,一般包括购买商品与线上介绍是否一致、商品使用情况、商家服务质量和物流配送等内容。基于线上购物时商品的虚拟属性,用户了解商品信息的渠道单一,无法对商品情况进行全面了解,因此无形中增大了消费者购买风险,而在线评论根据真实用户的购买情况,包含了诸多额外的商品信息,能够帮助有购买意向的消费者,使其对商品信息有更全面的了解,所以在线网络评论更容易获得其他用户的信服和采纳,如何从大量用户评论中提取出影响用户选择行为的因素,成为了当前理论研究和企业发展急需关注的问题。
  本研究选取京东平台作为用户在线评价的数据来源,以文本挖掘技术为基础,对数码影音商品的评论进行分析,分析影响消费者满意度的因素,进而找到提高电商平台用户网络购物体验的方法,这样企业也能根据用户需要逐渐改进商品和服务,从而进一步提升用户满意度,为企业和消费者带来双赢的局面 [3]。
  相关理论
  用户满意度理论
  通过对国内外文献中用户满意度概念的研究和总结,发现它们的定义仍然存在差异。Oliver(1980)认为,用户满意度是指用户在进行商品和商家服务的购买或享受后,对商品和服务的现实感受与预期感知的比较[4]。当用户觉得商品或商品比自己期望的产品和服务更好时,就会支持产品,产生认同感,当用户觉得商品或商品并没有比自己预期的产品和服务更好时,就会有一种不以为然的感觉,这是一种事后的评价[4]。Davis F D(1989)认为,用户满意度的定义是从购买开始到使用产品和服务的全过程中的感受,表达了用户在整个过程中的心理[5]。
  网络爬虫技术理论
  网络爬虫,是指按照一定的规则自动地在万维网中抓取信息的一种程序或者脚本,其被用于自动提取网页[6]。
  文本挖掘理论
  文本挖掘(Text Data Mining, TDM),其含义是指为了实现发现知识的目的,从大规模文本库中抽取隐含的、有潜在价值信息的过程,作为数字化社会的产物,文本分析已成为大数据时代下的一种极受欢迎的新兴技术[7]。
  数码影音评论数据采集
  数据来源
  本文选择平台上销量大、浏览量和收藏量高的产品为研究对象。在众多网购产品中,以耳机为代表的数码影音产品凭借广大数码产品迷的青睐,已经成为消费者最喜爱的商品之一。
  在过去三年中耳机市场发生了一个重大的变化,由原本维持多年的音频产品转向了产品功能更加多样的智能电子产品。这个行业的巨大变化由此也引发了相关用户的消费观念、市场竞争等诸多的变化。发生这一变化之前,大多数用户都以使用手机标配耳机为主,很少一部分用户由于追求更好的音质等原因去购买其他的耳机,但自从2016年苹果AirPods问世,打破了原先耳机市场的平衡,一年后真无线耳机市场得到了突飞猛进的增长,耳机市场的销售额更是一举超过过去5年销售额度的总和,成为一个新的红海市场。其中,Strategy Analytics新兴终端技术团队最新公布,截止2020年全球蓝牙耳机的总销量将超过3亿部。然而,耳机市场的快速变化,质量参差不齐,市场监管不到位,由此也带来了诸多产品和市场问题。因此本文将选用耳机作为研究的对象。
  同时,主打数码家电产品的京东电商平台以极高的营收增速位居各大电商平台的首位,显示出了巨大的发展潜力,故本研究选取京东平台作为用户在线评论的数据来源。
  数据采集
  本文使用八爪鱼爬虫程序,爬取了京东部分商店的数码影音用户的在线评论数据,总用户评论量存在7个CSV文件中,原始数据共约10万条数据。抓取数据时,首先对数码影音关键词进行检索,抓取所有数码影音商品列表用户评论页链接地址,之后通过循环此评论列表页的地址进入每个商品的用户评论页,对用户评论进行抓取。由于京东平台网页端对用户评论展示进行限制,故单个商品最多只能抓取100页的用户评论,约1000条。   笔者在查看京东平台商品评论区时,发现用户评论主要由用户名、会員标志、数码影音型号,数码影音颜色、评论时间、评价星级、评论内容和追评等板块组成。然后在进行正式评估之前,要对所采集的数据进行预处理,首先由于从网页中爬取的数据中会包含一些无效信息,如特殊符号、语气助词、表情符号等,需要去除无关数据,因此选取其中出现频次较高的关键词作为基本分析对象。由于这些因素与本研究没有太多益处,故剔除其他评论中的因素,只保留用户文本评论内容。
  文本分析与数码影音用户满意度因素归纳
  数据预处理——中文分词
  中文分词是根据一定的规范将连续的字序列重新组合成词序列的过程[8]。本文所用的jieba分词器是一个第三方中文分词组件库,分词效果准确度较高,因此本文选用jieba组件进行分词。
  文本词云统计
  西北大学里奇·戈登在2006年提出“wordcloud”这个概念,通过形成“关键词云层”或“关键词渲染”,在图形上突出内容文本中出现次数较高的“关键词”。词云图通过去掉大量的文字信息,让网络访问者对文字的主旨一目了然。本文将分好的词进行频数统计后,采用Wordcloud库生成词云图,效果如图:
  词云图中字体越大的词组的词频越高,也侧面反映出了该词组在该文本当中可能越为重要,但文本中一般会存在大量标点符号、日常语气词、副词等词,这些词与用户要表达的主题思想通常关系不大,一般做法是将其列为停用词列表,让真正的主题词(比如名词、动词)凸显出来。由上图,可以看出一些用户对于数码影音购买满意度的关注特征,例如音质、音效、质感、舒适度等特征,但仍有一些词如数码影音、能力、感觉等与主题表达无关的词,这些将在后续中进行优化。
  用户满意度因素归纳
  本小节使用LDA模型对数码影音评论进行主题分析,从而得出用户在购买数码影音产品中满意度的影响因素。LDA是文档主题生成模型,也被称为三层贝叶斯概率模型,其本质上是一种非监督机器型的学习技术,能够对大量文档内容集或语料库中潜藏的主题信息进行识别,LDA通过采用词袋的方法,将每一篇文档都看做成一个词频向量,然后对文本信息向易于建模的数字信息的转变有了极大的帮助[9]。
  LDA生成过程
  LDA对于语料库中的每篇文档都定义了以下的生成过程:首先从每篇文档的主题分布中抽取一个主题;然后从被抽到的主题所对应的单词分布中抽取一个单词;最后一直重复上述过程直到文档中的每个单词都被抽取过[9]。
  语料库中的每个文档都对应于T的多项分布(multinomial distribution)(通过重复试验等方法事先给定),多项分布被记作θ。每个主题对应于词汇表(vocabulary)中V个单词的多项分布,并且该多项分布被称为φ。
  LDA模型生成部分代码:
  #lda模型,num_topics设置主题的个数
  %time lda = models. ldamodel. LdaModel (corpus = corpus, id2word = dictionary, num_topics = 6, passes =100, iterations = 6000)
  本模型中iterations意思为训练模型过程中试图推断文本主题的次数,通常在1000以上,设为6000次,passes意思为训练模型过程中遍历全部文本的次数,通常情况遍历次数越大,耗时越长,设为100次。
  主题分析结果
  实验过程中针对文本主题num_topic进行调整参数,最终确定6个主题,尽量做到不重不漏。下图2为主题分析结果。尽管该模型预测不能做到百分百准确预测主题词,但基本上各个主题的关键词相似度极高,皆有共同特征,可以视为同一个主题。
  经整理,确定的6个主题如下,为:做工质感、商家服务、续航能力、音质音效、产品特色、佩戴感受。
  研究结论
  结论
  本文通过文本分析的方法对京东平台数码影音产品的用户评论进行了研究,构建了相应的BOW文本词频向量,利用LDA算法对实验数据进行建模模拟计算,经过不断的调整参数,最终确定影响用户购买数码产品的6个因素,即做工质感、商家服务、续航能力、音质音效、产品特色和佩戴感受。这为商家和耳机产商优化产品、平台和商家服务以进一步提升用户满意度提供了参考建议。
  对数码影音厂商和销售平台的建议
  对耳机产商的建议
  本文研究数据表明,在耳机产品方面,用户主要关注五方面的因素,即做工质感、续航能力、音质音效、产品特色、佩戴感受。针对这五个因素,本文提出以下建议:
  1.对做工质感的建议
  在做工质感类别中,出现频率较高特征词有做工、质感、颜色、手感、外观、很漂亮、材质、磨砂等词,各大耳机厂商在这些方面要多加注意,提升产品的质感、外观设计等元素,紧追前沿时尚,给用户以体验上的满足。
  2.对音质音效的建议
  音质音效在数码影音产品中的重要性一直以来都是比较高的,本实验也侧面佐证了这一点。耳机产商也都深知要提升音质音效,但产品有限的价位上,要重点提升哪些方面的音质音效,还需后续深入研究。本实验中,音质音效方面的关键特征词有低音、降噪、杂音、隔音、高音、重低音等词,故耳机厂商可重点提升这几个产品音质因素。
  3.对续航能力的建议
  续航能力在数码产品中是用户经常容易吐槽的点。对于无线耳机产品来说,厂商可优化产品的功耗、提升电池模组的性能、支持快速充电的功能等。
  4.对佩戴感受的建议
  佩戴感受方面的关键词有舒适度、佩戴、耳塞、入耳式等,厂商可重点关注耳机的佩戴感受方面,多进行用户佩戴实验,优化产品佩戴体验细节。   5.对产品特色的建议
  每一个成功的产品大多都有自己的独立特色,故厂商要想让自己的产品大规模普及开来,也必须针对自己企业的技术和设计特点,设计自己产品的特色。此主题关键词包括好看、性价比、颜值、小巧、可爱、时尚、好用等,厂商可针对产品的外观设计、性价比、易用性等方面进行用户满意度的优化。
  对京东平台和私营店铺的建议
  商家服务主题的关键词为物流、京东、快递、客服、速度、包装、品牌、服务等,京东平台和私营店铺可以针对这些关键词,进行服务优化,提升快递配送速度、客服人性化程度等。
  参考文献:
  [1] 中国政府网,《第47次中国互联网络发展状况统计报告》[EB/OL].http://www.gov.cn/xinwen/2021-02/03/content_5584518.htm
  [2] 网经社,《2020年度中国电子商务用户体验与投诉监测报告》[EB/OL]http://www.100ec.cn/zt/2021yhtsbg
  [3] 徐冬磊.C2C电子商务中的顾客满意度影响因素分析[D].安徽大学,2010.
  [4] Davis F D.Perceived usefulness, perceived ease of use,and user acceptance of information technology[J].MIS quarterly,1989:319-340
  [5] 朱俊亚.用户满意度影响因素研究—基于产品创新的视角[D].西南交通大学,2017.
  [6] 百度百科,网络爬虫[EB/OL].https://baike.baidu.com/item/%E7%BD%91%E7%BB%9C%E7%88%AC%E8%99%AB/5162711?fr=aladdin
  [7] 谌志群,张国煊.文本挖掘研究进展[J].模式识别与人工智能,2005,18(1):65-74.
  [8] 丁蔚.基于詞典和机器学习组合的情感分析[D].西安邮电大学,2017.
  [9] 孔振.基于VSM的文本分类系统的设计和实现[D].哈尔滨工业大学,2014.
  基金项目:国家自科项目地区基金:基于信息不对称和行为偏好双重视角下的供应链决策与协调研究(71762031)
其他文献
摘要:新时代新形势,改革开放和社会主义现代化建设、促进人的全面发展和社会全面进步对教育和学习提出了新的更高的要求。在新时代教育背景下,当今家庭教育存在着很多问题,观念比较落后和陈旧、教育无用和过度,教育方法脱节。所以教育界认识到,如果想取得教育改革的成功,这其中必不能缺少广大家长对此的认同和积极参与。于是“家校共育”这一概念诞生了,我国的教育工作者在此基础上建立了多样式的关于家校合作的平台、和相关
期刊
摘要:全媒体时代的到来促进了社会各行各业的创新发展,对于图书情报信息资源整合工作来讲,传统的整合方式已经不能满足社会对图书馆的要求,因此相关人员应当从全媒体角度出发,不断创新资源整合方法,从而提高图书馆的公共服务性能。本文主要介绍全媒体背景下图书情报信息资源整合的具体措施。  关键词:全媒体背景;图书情报信息;资源整合  Abstract:The advent of the omnimedia e
期刊
摘要:水泥作为建筑施工中的基础性建筑材料,在现代化工程建设中起着举足轻重的作用,因此我们要多加强水泥质量检验的把控。本文主要就如何提高水泥检验的准确性进行探讨分析。  关键词:水泥;不溶物;烧失量;三氧化硫;氧化镁;氯离子  中图分类号:TQ172.66  引言  水泥是一种粉末状水硬性胶凝材料,广泛应用于土木建筑、水利等工程中,所以对于水泥质量的好坏直接影响建筑工程质量。依据标准GB 175-2
期刊
摘要:随着新时代的发展,人们对信息传播有了更为苛刻的要求,5G 技术也随着各领域的发展应运而生。5G 技术正成为当下最热门的话题,现正处于快速发展的阶段。在校园领域,师生对于高效互联的迫切需求日益加深,智慧校园的概念也随着技术变革而 产生,本文针对数字校园的不足,融合 5G、物联网和 VR 等相关技术,搭建了基于 5G 技术下智慧校园服务建设的框架模型,对未来智慧校园的创新应用进行了阐述,提出“5
期刊
摘要:在社会不断进步的过程中,人们越来越重视精神世界的满足,对于电视广告的质量,提出了更加严格的要求,因此相关部门在编排电视广告时应该增强“节目思维”,有助于提升电视广告的质量。本文首先分析电视广告编排中运用节目思维的原因,其次探讨电视广告编排中使用“节目思维”的方式,以期对相关研究具有一定的参考价值。  关键词:电视广告;编排;节目思维  1电视广告编排需要“节目思维”的原因  1.1广告宣传需
期刊
摘要:在现代化社会不断发展的背景下,图像识别技术已经广泛应用在电力信息化处理中,不但能够有效提升电力行业的信息化应用水平,而且可以促进电力能源的长远发展。本文首先分析图像识别技术的应用优势,其次探讨图像识别的流程,最后研究图像识别技术在电力信息化处理的实际应用,以期对相关研究具有一定的参考价值。  关键词:图像识别;电力信息化;应用  引言:在信息化时代的背景下,电力企业在优化发展的过程中将会产生
期刊
摘要:对于烟草企业而言,做好企业安全保卫工作对于推动企业的进一步发展有着极其重要的意义。如果在企业管理中能够全面发挥政工工作对企业安全保卫工作的指导作用,能够显著提升企业安全保卫工作人员的个人能力,更有利于维护企业秩序稳定,为企业取得进一步发展创造良好的环境。本文首先论述了政工工作对于推动企业安全工作的重要性,然后结合当前企业发展实际提出了政工工作中存在的问题,最后针对这些问题提出可靠的解决措施,
期刊
摘要:新疆作为中国反恐工作的第一线,和田地区就是冲锋在第一线的大前锋,文章通过阐述进入21世纪后新疆开展去极端化工作历程,结合和田地区的区位特点和工作优势,分析推动和田地区去极端化工作的基本要求,进而系统对和田地区推进去极端化工作进行思考,并提出加强去极端化人才队伍建设、夯实去极端化群众基础、强化去极端化理论研究三个方面等三项可操作性的对策建议。  关键词:新疆和田地区;去极端化;对策  面对日益
期刊
摘要:随着社会经济的不断发展,人们在生活质量提升的同时,对各行业的要求也在不断提高,现阶段的产品设计逐渐要以用户的体验需求为导向,通过市场调研,不断优化产品设计。当前受经济等因素的影响,用户体验设计要素已经成为了产品设计中一种至关重要的研究方式。本文主要针对当下的产品设计现实情况,科学的探索了用户体验要素在产品设计中的具体应用。  关键词:用户体验;设计要素;产品设计  引言:  社会经济的飞速发
期刊
摘要:突发卫生事件给河北省经济平稳发展带来了严重影响,为促进河北省经济能迅速的走上平稳发展之路,河北省出台相关措施应对突发卫生事件。本文以河北省经济发展现状为研究对象,基于政策工具视角,运用内容分析法,研究表明,河北省经济受突发卫生事件影响较大,促进经济发展的政策存在问题。因此提出以下对策:加强政府的宏观调控;多元化联动;构建系统的政策工具体系;交互式共生;塑造协调的政策生态系统。  关键词:突发
期刊