基于在线问卷调查的卷烟竞品评价文本挖掘分析

来源 :中国市场 | 被引量 : 0次 | 上传用户:qukangmin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  [摘 要]为了维护卷烟产品质量和把握消费者关注热点,通过在线问卷调查获取消费者抽吸感知评价数据,并从消费者满意度、评论热度和文本特征提取等方面开展竞品对比分析,实现了新的竞品筛选及其特征提取方式。研究表明:①通过客观评分得出卷烟A在外观整体、吸味整体和产品综合上的满意度远高于其他竞品;②文本挖掘得出消费者关注的竞品与专家筛选的竞品存在差异,且其产品优势集中表现为“口感”“价格”“吸味”等。该分析方法可有效动态监测消费者偏好和市场消费趋势,为卷烟工业企业改进产品质量提供支持。
  [关键词]在线问卷调查;竞品评价;文本挖掘;TF-IDF算法;词云图
  [DOI]10.13939/j.cnki.zgsc.2021.25.133
  1 前言
  卷烟产品质量与卷烟企业的信誉、消费者的体验、企业的生存发展息息相关。当前,以市场为导向,在满足不同消费者需求的前提下培育高质量的卷烟品牌已经成为行业企业发展的共识。因此,获取消费者的消费评价和需求信息对卷烟工业企业维护产品质量而言显得尤为重要。随着互联网的迅速发展,各种网络平台为企业提供与消费者沟通的便利渠道。利用网络平台形成的在线问卷调查成了获取卷烟消费评价的有效途径,同时弥补了由评吸员评价的传统方式中存在的样本少、成本高、主观性不强等不足。在所收集的问卷数据中,通常会存在消费者对产品的主观评价,以文本数据的形式呈现,反映了消费者的真实体验和使用心得,蕴含了极其丰富的信息。采用文本分析方法挖掘文本数据的隐含信息,可以帮助企业了解消费者的真实需求,具有重要的现实意义[1]。
  文本挖掘分析,又称为意见挖掘,是利用自然语言处理技术、数据挖掘算法等对带有情感色彩的主观性文本进行预处理、归纳和推理的过程[2]。近些年来,运用文本挖掘技术将难以量化的文本数据进行清洗、整合、转换为结构化数据,并提取有价值的信息已广泛应用于商业[3]、旅游[4]和金融[5]等领域。然而,对于问卷调查中消费者主观评价文本的研究却鲜见报道。因此,文章基于在线问卷调查采集而来的竞品评价文本,利用文本挖掘技术探索消费者对卷烟产品的关注热点,剖析国内市场卷烟的热销品及其产品优势,捕捉消费者对产品质量的需求,为卷烟工业企业改进卷烟产品质量提供参考。
  2 研究方法
  2.1 在线问卷调查
  为了深入了解消费者评价卷烟抽吸感知的关键要素,通过营销渠道邀请全国31个省市消费者参与卷烟A及竞品的评吸、评价活动,并进行在线问卷调查。问卷由结构化客观题和非结构化主观题组成,分为人口学特征、抽吸评价和竞品对比及质量改进三部分。人口学特征包括性别、年龄、烟龄、消费水平4个问题,抽吸评价包括香气浓度、香气类型、一致性、抽吸感受等8个问题,竞品对比及质量改进的指标评价、主观评价等3个问题。其中,第三部分除了客观评分以外,还设置主观评价的问题。例如“您认为在15~20元/包的常规支产品中,还有哪款产品抽吸体验更好或在当地更畅销,该产品主要好在哪些方面?”该部分构成了问卷调查中竞品评价的文本数据。
  2.2 文本挖掘方法
  2.2.1 中文分词
  在进行文本数据分析前,需要对文本进行分词处理。中文分词就是将一段话切割成有字和词或短语的小片段,是文本挖掘、特征提取的基础[6]。在自然语言分类中,中文原本起步就比国外晚了很多年,在分词的技术上更是借鉴国外的方法。目前,常用的中文分词算法有:基于词典的分词方法、基于语义的分词方法及基于统计的分词方法等。其中,基于词典的分词方法是选定的字或词构成字符串,与字典里的字符串进行匹配[6]。假设需识别文本中的字符串Z,若词典中存在字符串Z,则可匹配成功。该方法效率高但是对新词的识别能力不足,需经常更新词典[7];基于语义的分词方法是根据中文的句法以及语义来划分句子,从而达到分词的目的。这种方法需要前期做大量的准备工作,需要对几乎所有的语料、语义、语法进行标注,甚至还需要考虑中文语义里的反讽、反语以及正词反义等一系列的特殊语义;基于统计的分词方法是根据同时出现的相邻两个字的频率来进行分词,可以不受待处理文本领域的限制自动排除歧义并识别相应的词语[7]。
  以上3种中文分词方法各有优缺点,文章采用基于词典的分词方法对文本进行分词,并调用R软件的jiebaR安装包来实现。jiebaR包拥有自己的系统词典,且词汇量相当丰富,结合自建的烟草专有名词词典,共同形成本文文本分析的分词词典。
  2.2.2 文本数据清洗
  首先,原始文本数据会包含大量重复性、无语义的评论,例如数字、字母以及特殊字符,或者包含例如“没有”“好”字符很小的极短评论,此类评论内容蕴含的信息量很少,会增加文本分析的复杂度,需将其清除过滤。
  其次,对文本分词处理后会出大量的停用词。停用词是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据之后会自动过滤掉某些字或词,这些字或词即被称为Stop-Words。对于停用词的去除,即可采用现有的停用词词典,也可以根据需要自建停用词典。
  最后,文本中使用频率不高的非停用词往往对文本特征的提取也没有价值,故对这类词也需要进行清除,即可根据词语的长度或出现的频数进行过滤处理。
  2.2.3 文本特征提取
  特征提取本质上是一种降维的技术,目的是从样本所有的特征中筛选出具有区分性和代表性的特征,从而提高模型或方法的分类性能[8]。特征提取一般先构建特征选取函数,计算所有特征的权重,然后筛选出权重大的特征作为关键特征。文本特征提取时常用的方法有文档频数[9](Document Frequency,DF)、信息增益[10-11](Information Gain,IG)、互信息[10,12-13](Mutual Information,MI)、x2统计法[10,12](CHI)等。通过比较,文章采用的方法是TF-IDF算法[14],TF-IDF實际上是TF与IDF的乘积。TF代表词频(Term Frequency),指词或短语在一篇文档中出现的频数;IDF代表逆向文件频率(Inverse Document Frequency),指含有词或短语的文档数在总文档中所占比例取逆后的对数值,表征该词项区分文档的能力。当某个词或短语在一篇文档中出现的频率越高并且在其他文档中出现的次数越少,说明该词或短语的区分能力越强,其TF-IDF值越大。计算公式如下:   wij=TF×IDF(i, j)=tfij×idfj=tfij×logNdfj+1(1)
  其中,tfij表示特征词tj在文档di中出现的频数;dfj表示出现特征词tj的文档数;N为总文档数。
  3 结果与分析
  3.1 问卷基本分析
  本次调查回收问卷2968份,其中有效问卷2962份。调查对象的人口学特征见表1。从表1中可看出,性别、年龄、烟龄、消费水平的分组均具有较好的代表性。
  3.2 竞品对比分析
  3.2.1 消费者满意度比较
  组织相关专家筛选出与卷烟A同价位的卷烟B、卷烟C、卷烟D作为竞品,分别从外观整体、吸味整体和产品综合三个方面的消费者满意度评分进行比较。
   采用核密度估计方法[15]分别拟合卷烟A、卷烟B、卷烟C和卷烟D的满意度评分的样本分布,见图1。并推断出卷烟A、卷烟B、卷烟C和卷烟D的满意度评分的样本均值,见图2。无论是从分布还是中心值比较,在产品综合上的满意度排序是:卷烟A>卷烟B>卷烟C>卷烟D,在外观整体、吸味整体上的满意度排序是卷烟A>卷烟B >卷烟D>卷烟C。产品卷烟A在外观整体、吸味整体和产品综合上的满意度评分远高于其他竞品,带有一定的主观偏向。
  3.2.2 竞品评价文本挖掘
  为了进一步了解竞争对手产品的优势特点,文章采用文本分析方法挖掘消费者竞品评价文本的热点及关键特征。
  (1)文本数据清洗。先过滤原始文本数据中诸如“未填写评论”自动填充文本,然后逐条进行分词,共得到12704个词语,包括副词、介词、语气助词等无意义的词汇,比如“是、于是、还有、都、的、得”等。为了避免在后续文本挖掘时增加干扰噪声,需要将这些词语过滤掉。本研究采用的停用词词典是《中文停用词词库》,分词及去停用词后部分竞品评论见表2。
  (2)竞品评论热度分析。卷烟的包装、口感、性价比等因素构成了卷烟产品的特性,直接或间接影响消费者的消费体验。消费者的购买偏好会存在差异,同时对同一产品的特性关注度也存在差异。因此,基于文本挖掘的热度分析可有效挖掘出消费者关注的主要竞品。对竞品评价文本进行数据清洗后,统计词频并使用R生产词云图(见图3)。词云图能直观将高频词汇通过颜色和大小展示出来,前3位高频竞品词汇是卷烟B(495)、卷烟E(431)、卷烟K(148)。
  (3)竞品特征提取。特征提取是文本挖掘的重要环节,对竞品评论的关键词进行有效提取,可为总结竞品的产品优势提供思路。针对筛选出的卷烟B、卷烟E、卷烟K,分别匹配并形成特征提取数据文档(文档D1,文档D2,文档D3)。然后,采用公式(1)计算文档分词后的TF-IDF值,部分结果见表3。
  一个词语对文档的重要性与该词语的TF-IDF值大小成正比。因此,只需选取TF-IDF值排在前列的词语,即为文档的特征词。文章分别提取竞品评价的5个特征词,并以词云图进行可视化展示,见表4和图4、图5、图6。可见,卷烟B的评论中“畅销”“口感”“不错”“价格”“产品”的词语权重较高,说明该产品的口感、价格给消费者带来很好的体验;卷烟E的评论中“口感”“畅销”“不错”“口味”“适中”的词语权重较高,说明消费者认为该产品的竞争优势是适中口味、口感;卷烟K的评论中“畅销”“口感”“吸味”“价格”“不错”的词语权重较高,说明消费者对该产品的抽吸感受和价格更满意。
  4 结论与讨论
  问卷调查可根据调查目的设计问卷,内容具有针对性,且结果便于量化和统计。结合网络信息平台可进行大规模、多类别人群的问卷调查和数据收集,有效弥补了样本少的不足。针对2962条问卷调查数据,文章采用统计分析和文本挖掘方法进行竞品满意度比较及文本特征挖掘分析,结果如下:①通过客观评分得出产品卷烟A在外观整体、吸味整体和产品综合上的满意度远高于其他竞品;②文本挖掘得出消费者关注的主要竞品是卷烟B、卷烟E、卷烟K,与专家筛选的競品存在差异;③特征提取卷烟B的产品优势是口感和价格,卷烟E的产品优势是适中的口味,卷烟K的产品优势是抽吸感受和价格;④基于大数据、文本挖掘的产品质量评价分析,能建立新的竞品筛选及其特征提取方式,并动态监测消费者偏好和市场消费趋势,为卷烟工业企业精准维护产品质量提供支持。
  参考文献:
  [1]杨春晓,张鹤馨,黄家雯,等.卷烟在线评论的文本情感分析[J].中国烟草学报,2020,26(2):92-100.
  [2]赵妍妍,秦兵,刘挺.文本情感分析[J].软件学报,2010,21(8):1834-1848.
  [3]李涵昱,钱力,周鹏飞.面向商品评论文本的情感分析与挖掘[J].情报科学,2017,35(1):51-55.
  [4]朱峰,吕镇.国内游客对饭店服务质量评论的文本分析——以e龙网的网友评论为例[J].旅游学刊,2006,21(5):86-90.
  [5]PREIS T,MOAT H S,STANLEY H E.Quantifying trading behavior in financial markets using Google trends[J].Scientific Reports,2013(3):1684.
  [6]刘丹.酒店评论的情感分析[D].昆明:云南财经大学,2017.
  [7]莫建文,郑阳,首照宇,等.改进的基于词典的中文分词方法[J].计算机工程与设计,2013,34(5):1802-1807.
  [8]陈俊宇,郑列.基于R语言的商品评论情感可视化分析[J].湖北工业大学学报,2020,35(1):110-113.
  [9]代六玲,黄河燕,陈肇雄.中文文本分类中特征抽取方法的比较研究[J].中文信息学报,2004(1):26-32.
  [10]黄萱菁,吴立德,石崎洋之,等.独立于语种的文本分类方法[J].中文信息学报,2000(6):1-7.
  [11]李辉,史忠植,许卓群.运用文本领域的常识改善基于支撑向量机的文本分类器性能[J].中文信息学报,2002,16(2):7-13.
  [12]马慧敏.中文文本自动分类方法的研究和实现[D].北京:华北电力大学,2004.
  [13]章兰.一种基于VSM模型的动态文本分类器的设计[D].苏州:苏州大学,2004.
  [14]余芳,姜云飞.一种基于朴素贝叶斯分类的特征选择方法[J].中山大学学报(自然科学版),2004(5):118-120.
  [15]吴喜之.复杂数据统计方法:基于R的应用[M].北京:中国人民大学出版社,2012.
  [基金项目]提升产品感官区域适应性的关键技术研究(项目编号:HYHH2018GY06)。
  [作者简介]汪显国(1983—),男,汉族,安徽人,副研究员,博士,研究方向:产品市场分析及维护;通讯作者:许磊(1986—),男,汉族,湖北人,统计师,硕士,研究方向:工业大数据挖掘。
其他文献
[摘 要]市场营销竞争力是企业根据自身的资源,通过市场竞争和企业自身的发展情况来制定营销战略的能力。市场营销竞争力对企业的未来发展稳定提供了基础上的优势。而评价指标体系的建立,能够让企业营销竞争力增大,因此文章对市场营销竞争力评价指标体系的构建要素以及具体的实施途径进行探讨,希望能为业内人士提供相关的建议来促进企业营销的效果,提高企业的竞争力。  [关键词]市场营销竞争力;评价指标体系;企业市场营
[摘 要]医院档案记录了患者信息、病例与学术研究等资料,承载了医院的发展历史,是医院发展的重要存证,因此,对医院档案的妥善管理尤为重要。医院档案管理与医院各项阶段的活动互相关联,关联内容包括对各项活动信息的整理记录、收集查阅、归档立卷等,同时,医院档案管理也体现了医院的整体管理水平。然而,现阶段医院档案管理工作中依旧存在许多问题,文章在简述了医院档案管理价值的基础上,針对医院档案管理工作中存在的问
[摘 要]当今世界面临着百年未有之大变局,政治多极化、经济全球化、文化多样化和社会信息化潮流不可逆转,各国间的联系和依存日益加深,但也面临诸多共同挑战,国际社会日益达成构建“人类命运共同体”的共识。在经济全球化的背景下,各国都迫切需要根据自身国情优化本国经济运行模式,探索企业工商管理创新方法。而当下我国正处于经济结构调整、产业改革升级的重要阶段,进入了经济发展的新常态。文章以经济新常态作为背景,探
[摘 要]行政事业单位是社会组织体系中最为重要的组成部分,为了进一步推进行政事业单位向前发展,使其能够为社会、为人民提供更好的服务,就要对单位人力资源管理工作不断地强化,尤其在人才培养和考核方面的力度,不仅要构建健全完善的绩效考核制度,而且还要对原有的人力资源管理模式和管理理念进行积极的转变,这样才能确保行政事业单位人力资源管理水平,提升單位员工队伍的综合素质与专业能力。文章主要针对烟台市行政事业
[摘 要]在新时期,医疗卫生事业单位针对人力资源管理活动要基于长期发展要求转变原有的计划性管理理念,积极借鉴更多新型管理理论。基于计划拟定、职能执行以及综合評价等,强化卫生事业单位各部门人员综合素质。当前要注重从基层管理人员角度出发,在流动机制设定、评价标准拟定、人才培养、管理队伍建设等方面集中判定事业单位人力资源管理现状,拟定针对性的人力资源管理对策,促进卫生事业单位全面发展。  [关键词]卫生
[摘 要]在现代社会中,知识型员工因其自主意识强、绩效目标不明确、流动性强等特点,更易产生角色压力问题,继而影响工作满意度,对企业管理提出了新的要求。文章在前人研究的基础上,探究了知识型员工角色压力的来源,尝试对其成因做出解释,提出相应的举措以期帮助员工及企业减少角色压力造成的负面影响。  [关键词]知识型员工;角色压力;公司制度  [DOI]10.13939/j.cnki.zgsc.2021.2
[摘 要]通过实验研究发现:①权力感越低,则自我威胁就越低,推荐奖励计划中消费者推荐意愿越强;②自我威胁中介权力感对推荐奖励计划中推荐意愿的影响;③推荐人与被推荐人关系较强时,权力感高和低对消费者的自我威胁与推荐意愿无显著影响,关系较弱时,与①研究结论一致。  [关键词]权力感;消费者;自我威胁;推荐意愿  [DOI]10.13939/j.cnki.zgsc.2021.25.140  1 引言  
[摘 要]在互联网经济时代,物流行业规模不断扩大已经形成了企业间的大供应链体系。这就需要设计合理的内部控制,降低和避免企业各环节税收风险,文章主要论述了物流企业税收风险产生的原因,并就原因提出了几点防范风险的措施,以期为相关行业提供参考和借鉴。  [关键词]物流企业;税收风险;会计核算  [DOI]10.13939/j.cnki.zgsc.2021.25.160   物流行业发展过程中,内部管理问
[摘 要]随着经济的快速发展,生活节奏变快,各类人群面临的压力都在不断增大。据调查显示,社会上有95%的人表示自己承受着压力,这其中大学生面临的压力也是不可忽视的。近年,大学生出现很多的负面现象,偏执、脆弱、休学,更有甚者轻生,这些问题严重影响到大学生的身心健康。文章通过对秦皇岛地区大学生压力的现状进行调查,了解其对“解鸭馆”的需求,得出数据,总结分析“解鸭馆”项目的优劣及发展前景,并提出大学生市
[摘 要]事业单位是中国社会中各类公共服务及产品的重要供给力量,承担着各类科教文卫职能。当下中国社会整体的经济发展水平是很快的,此种状况下事业单位同样需与时俱进优化自身的绩效工资状况,由此才能够让绩效考核管理更好地服务于绩效工资改革。文章以此作为背景,从事业单位的绩效工资改革出发,分析相关内容,就当下绩效工资改革当中涉及的绩效考核管理难点等开展探析,并给出自身的改革意见,希望能够为相关事业单位的发