基于文本挖掘的企业网络口碑危机评估研究

来源 :科技信息·下旬刊 | 被引量 : 0次 | 上传用户:harry810
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:为了更好地輔助企业进行危机管理,以在线评论为研究对象,构建了企业网络口碑危机评估模型。利用支持向量机分类方法对文本进行情感分类获取负面评论数据集,基于词频分析提取危机特征词并确立其权重,基于语义的分类分析特征词情感强度。把特征词的权重和情感强度作为危机程度的衡量指标,将危机在二位坐标系定位,根据不同象限危机特点,采取不同的措施应对。以携程酒店为例进行实证研究的结果表明,该模型是可行的,可以有效进行危机评估。
  关键词:文本挖掘;危机管理;二维象限分析
  Abstract:In order to better assist the enterprise to carry out crisis management,the enterprise network word-of-mouth crisis assessment model was put forword by using online reviews as research subjects.The model choose support vector machine classification method to attain the emotional classification of text and get negative review data set,based on word frequency analysis to extract the key words and establish its weights,based on the classification of adverbs of degree to analysis the emotional intensity of key words.Then the weight and emotional intensity of the key words are regarded as the measure of the degree of crisis.On this basis,the crisis is positioned in two coordinates.According to the characteristics of different quadrant crises,take different measures to deal with them.The results of the empirical study of ctrip hotel show that the model is feasible and can evaluate crisis effectively.
  Key Words:Text Mining;Crisis Management;Two - dimensional Quadrant Analysis
  一 引言
  互联网时代,电子商务发展迅速。大量的消费者在线评论聚集于网上,其中涉及包含了消费者的隐性需求及对企业产品或服务的情感态度,这成为企业可以分析利用的信息资产。但不可忽视的一点是企业的网络口碑是有方向之分的,负面网络口碑借助互联网的便捷性和广域性在平台上大肆传播会引发网络口碑危机,抑制企业产品或服务的销售,降低顾客忠诚度,甚至还会危及企业经营。由此可见,网络口碑危机的影响是较长远的。对在线评论进行挖掘,及时察觉可能出现的危机信号,并对其进行评估,这对互联网时代下的企业进行危机管理具有关键意义。
  本研究综合考虑网络口碑中隐含的丰富信息与企业当前危机管理的弊端,以在线评论为研究对象,建立一个企业网络口碑危机评估模型。这个模型利用文本挖掘技术对在线评论这种非结构化文本数据进行处理,通过文本分类提取酒店负面评论数据集,基于酒店负面评论数据集挖掘酒店网络口碑危机的特征词,并基于词频确定特征词的权重,基于程度副词分析特征词情感强度。将特征词的权重和情感强度作为这个特征危机程度的测量属性,将其映射到二维象限,对其进行类别划分,从而实现企业某一方面危机程度的精准定位,为企业危机管理提供辅助。
  二 相关研究与方法
  2.1 企业危机管理研究
  当前,学者们对企业危机管理的研究主开始基于大数据背景。李金海,何有世[1]等认为大数据时代由在线评论导致的网络口碑危机是企业不可忽视的外部危机,企业应该重点对其管理。他们指出网络口碑危机主要源于负面评论信息,对其进行挖掘分析可以获取企业危机信号。张丽[2]分析了大数据增长给企业危机管理带来的挑战并强调了危机的类型、危机的发展速度、危机的发展程度都应该是企业决策者应对危机必须掌握的信息。
  学者们已经从理论上认识到在大数据时代对在线评论进行挖掘获取企业潜在危机的必要性,并指出了危机评估应该基于多维度。但是在实证研究的过程中,学者们在进行企业危机评估时,仍然只考虑了单一指标。张艳丰等[3]以美团外卖为例,对外卖店家进行口碑危机分类时只把产品销量作为危机严重程度的衡量指标,他们认为产品销量高,危机发展程度低,危机严重程度相对较轻。李明等 [4]基于微博平台上的评论信息对企业网络口碑危机进行研判时,指出对负面在线评论进行挖掘获得消费者关注点,消费者关注度高的危机发展速度快,危机严重程度应该引起企业重视。
  上述实证研究在进行企业危机评估时,对危机严重程度的衡量都比较片面。本文将综合考虑危机发展速度与危机危害程度两个指标对携程酒店网络口碑危机进行评估,负面评论中消费者关注度代表危机发展速度,负面评论中消费者情感强度代表危机危害程度。
  2.2 文本挖掘研究
  网络客户评论中的产品特征挖掘是指通过机器从大量的网络客户产品评论中自动地获取所关注的产品特征,这项技术是分析用户对于产品具体特征所持情感倾向的前提。产品特征挖掘研究已经取得了一些成果。Hu和Liu等学者首先提出应 用关联规则分类方法提取英文评论中的产品特征并成功运用[5]。李实[6,7]等通过构建中文语料库。利用关联规则中的Apfiofi算法提取产品特征并修正中文词序。韩雪婷[8]进一步采用K—means聚类算法进行聚类,深化了李实等的研究。张璐[9]等通过对产品网络评论进行分词和词频统计,通过抽取高频名词和名词短语作为产品属性特征。   情感分析(sentiment analysis)也称意见挖掘(opinion mining),是利用文本挖掘技术,对在线评论进行语义分析,旨在识别用户的情感趋向是 “高兴”还是“伤悲”,或判断用户的观点是“赞同”还是“反对”。从技术方法来看有两种方向:一种是基于语义分析[10],另一种是基于机器学习[11]。在语义分析的方法上,情感词典匹配的方法产品特征情感强度的细粒度分类上应用效果较好[12]。在机器学习算法中SVM算法应用广泛,且分类效果好[13-14]。
  三 研究设计
  3.1 网络口碑危机评估模型框架
  网络口碑危机评估模型机制是基于在线评论挖掘建立的,它的目标是及时发现企业危机信号,并进行危机程度的评估,辅助企业进行危机管理。按照信息处理顺序,它主要分为3个部分:数据准备、危机识别、危机评估。如下图
  3.2 数据准备
  3.2.1 数据采集
  网络信息数量庞杂、信息非结构化,要根据研究的需要选择合适的数据源才能达到研究目的,本文数据源为携程旅游网。携程旅行网拥有国内外六十余万家会员酒店可供预订,是中国领先的酒店预订服务中心。大量用户通过携程旅游网预定酒店,并在享受酒店服务后,创建用户网络在线评论。利用网络爬虫软件进行爬取,通过预设采集算法和规则,以列表形式获取评论用户名称和评论内容。
  3.2.2 数据预处理
  利用网络爬虫软件采集到的数据,有一些是对研究主题没有价值的,这部分信息需要过滤,否则会降低后续挖掘结果的准确性。通过对评论数据的研究分析,确定要过滤掉的这部分评论包括:(1)与主题无关的评论,比如植入的广告评论;(2)字数过少、属性缺失的评论信息,比如有用户评论“还好吧”,这种不能提供对研究有用的信息的评论要予以删除。
  3.3 危机识别
  3.3.1 通过情感极性分类确定负面评论数据集
  基于SVM良好的文本分类能力,本文选用信息增益[15]作为文本特征选择方法运用SVM情感分类方法对酒店用户评论进行情感极性分类。在进行分类前,先要对SVM进行性能测试,步骤如下:
  (1)获取训练文本集和测试文本集:从经过预处理之后得到的有效评论信息中,分别选200条评论作为训练集,100评论作为测试文本集
  (2)训练分类模型:以0标记消极,以1标记积极,用获取的训练文本集进行分类模型训练
  (3)用分类模型对测试文本集进行分类
  (4)根据测试结果评估分类模型效果:现阶段,学者们主要使用查全率和查准率两个指标来评估。这两个指标反映的是分类质量的两个不同方面,查全率衡量完整性,查准率衡量准确性。计算过程如下:
  综合考虑这两个指标来评估分类模型效果。分类的查全率和查准率都较高,分类性能测试良好,则可以利用此SVM训练的分类模型对其他酒店评论进行分类,从而得到研究所需的酒店的负面评论数据集。
  3.3.2 酒店危机特征词提取
  为了更好的对酒店的用戶在线评论进行分词,本文结合搜狗酒店词典与ROST CM自带的词典构建手机产品分词语料库,作为分词的语料词典。通过ROST CM软件对由SVM情感极性分类所得负面评论集进行评分词和词频统计分析。
  根据词频统计结果,选取排名前50高频名词和名词短语,再对高频词进行清洗和整理。清洗50个高频名词和名词短语后,会发现有一些表述不同但意思相同的词项,比如“早餐”和“早饭”,学者们将其称为同类属性,经研究同类属性只有进行合并才能更好地进行情感分析[16]。本研究在选取了词频统计结果中的高频词并进行了同类属性的合并之后,确立了酒店网络口碑危机特征词。
  3.4 危机评估
  3.4.1 特征词权重确立
  通过对酒店负面用户的网络进行分词和词频统计得到酒店网络口碑危机特征词。特证词的词频数越大,代表此类危机发生的次数越多,此类危机发展速度也就越快。本研究特征词的权重基于词频确立,将选取的高频词(包括同类属性)的频数从高到低依次在表格中列出,然后进行归一化处理后,就得到了酒店网络口碑危机特征词的权重。特征词的权重就代表了危机发生的次数,表明了危机的发展速度。
  3.4.2 特征词情感强度分析
  对于特征词情感强度的分析方法,本文将借鉴张鸣专门为酒店特征情感分类设计的情感词典匹配方法,采用情感程度副词匹配方法进行酒店特征情感强度分析。具体的步骤如下:
  (1)利用ROSTCM软件的分类分析功能对SVM情感极性分类得到的某个酒店的负面评论数据集基于提取的特征词进行分类,获取每个特征的负面评论数据集。
  (2)情感强度分类的确定:情感强度分类词典的构建上,本文将借鉴张鸣在其研究中构建的情感强度词典结合本文的数据集和研究需要构建情感强度程度副词分类词典如表3所示。
  (3)对选取的某个酒店的每个特征的负面评论数据集与程度副词进行匹配,获取每个特征每一类情感强度的负面评论数据集。
  (4)对每个特征每一类情感强度的负面评论数据集的数目进行统计,以表格的形式显示,并作归一化处理,计算每个特征的最终情感强度值,计算方法为每一类情感强度数值与特征属于该情感强度的概率的乘积的总和。
  某个特征的情感强度越大,代表用户对于此酒店特征的评价越低,此特征造成企业口碑危机的影响程度也就越大危害程度也就越大。
  四 结论
  互联网时代,信息在网络上传播速度快、范围广,在这种情况下企业的危机也会被放大。负面在线评论包含了用户对企业产品或服务的意见和情感态度,这是企业获取危机信号的重要渠道。企业应该重视并利用好这一信息资源,及时获取企业危机信号,更好地进行危机管理。因此研究基于在线评论挖掘构建了网络口碑危机评估模型。通过文本分类提取酒店负面评论数据集,基于酒店负面评论数据集挖掘酒店网络口碑危机的特征词,并基于词频确定特征词的权重,基于程度副词分析特征词情感强度。将特征词的权重和情感强度作为这个特征危机程度的测量属性,将其映射到二维象限,对其进行类别划分,从而实现企业某一方面危机程度的精准定位,为企业危机管理提供辅助。从实验的结果来看,研究建立的模型是可行的。
  参考文献:
  [1]李金海,何有世.大数据时代基于在线评论挖掘的企业网络口碑危机预警研究[J].情报杂志,2015,(2):53-58
  [2]张丽.大数据时代企业危机管理策略研究[J].内蒙古财经大学学报,2016,(4):38-41
  [3]张艳丰,李贺.负面评论挖掘的网络口碑危机预警模糊推理[J].图书情报工作,2016,(9):75-82
  [4]李明,王高飞.基于微博平台的企业网络口碑危机预警研究[J].北方经贸,2016,(8):42-43
  [5]Iju B,Hu M Q,Cheng J S.Opinion Observer:Analyzing and Com— paring Opinions on the Web[C].Proceedings of Thel4th Interna— donal World wide WebConferenee(wWw一2005),2005.342—351.
  [6]李实.中文网络客户评论中的产品特征挖掘方法研究[D].哈 尔滨工业大学,2009.
  [7]李实,陆光.修正中文评论挖掘中产品特征词序的实验研究[J].科学技术与工程,2012(21):5181—5186.
  [8]韩雪婷,李炜,沈奇威.用户评论中产品特征的抽取及聚类[J].计算机系统应用,2013(5):188—192.
  [9] 张璐,吴菲菲,黄鲁成. 基于用户网络评论信息的产品创新研究[J]. 软科学,2015,29(5):12-16.
  [10] 周 哲,商 琳. 一种基于动态词典和三支决策的情感分析方法[J]. 山东大学学报(工学版),2015,45(1):19
  基金项目:
  本文受到山东省高校人文社科研究计划项目(J16YF15)、青岛市社科规划项目(QDSKL1601077)的支持。
  作者简介:
  李琦(1992-),男,硕士研究生,963334593@qq.com;张宁,男,副教授,zhang_ning1980@126.com;何立峰,男,硕士研究生。
其他文献
摘要:智慧课堂的形成和在教育领域的应用,是当前在教学技术领域的一大热点。本文就何为智慧课堂,信息技术在智慧课堂中的作用,以及智慧课堂的教学模式进行了讨论和研究。希望能通过这篇文章,能够让学习在信息技术的支撑下完成史诗级的变革和创新,让学生的学习变得更加的具有科学性和开放性。  关键词:信息技术;智慧教育;智慧课堂;构建方法;教学模型  我们处于一个快速发展的社会,无论是经济上的进步,还是科技上的飞
期刊
摘要:美海军舰队响应训练计划依据美海军能力和使命任务制定,采用灵活的、可扩张的训练方法,确保部队实施该训练计划后,能够具备履行海军使命任务的能力。该计划由四个阶段的训练时期组成,各阶段侧重点不同,这也定义了美海军部队部署能力的递进层次。本文针对美军舰队响应训练计划四个阶段的训练重点和要求进行了详细的介绍及分析。  关键词:航母;舰队响应训练计划;战备训练  美军的“舰队响应训练计划”(Fleet
期刊
摘要:企业需要借助人力资源,实现给自身核心竞争力的有效提升。所以在企业当中,人才所占据的位置不可替代,丰富的人才资源可以说是企业最为宝贵的一笔财富。制度化的标准工作流程是企业人力资源管理部门在实际开展人才管理工作中所必须满足的条件。人事档案也是其中不可缺少的组成部分,绝对不能忽视人事档案的重要性,人事档案管理制度可帮助我们实现对内部人员使用情况的全面熟悉与掌握,为企业未来发展做出指导。本文主要针对
期刊
摘要:本文针对煤矿通风管理的重要性及煤矿通风管理中出现的问题,从煤矿安全事故防范的主要措施进行深入分析,并以此提出相应有效的煤矿通风安全管理措施,为促进煤矿安全管理体系的完善奠定坚实基础。  关键词:煤矿;矿井通风;安全管理;管理措施  1矿井通风管理的基本概念和重要意义  1.1基本概念  通风管理是煤矿安全管理的重要内容,也是保障矿井正常安全运行的有利条件。矿井通风的主要方式是通过矿井的主、副
期刊
摘要:在大数据中,分布式数据库技术得到极大的发展,也正是由于分布式数据库技术表现出来的先进性能,才使得分布式数据库得到广泛的使用。本文首先对当前大数据环境下的分布式数据库技术进行介绍,然后分析分布式数据库技术在大数据中的具体应用。  关键词:分布式数据库;大数据;驱动力  随着当前移动互联网技术的迅猛发展,数据的种类和数量呈现快速的增长,传统的处理方式逐渐的不能够适应当前的发展需要,基于此种背景下
期刊
摘要:ARM处理器既具有16位/32位双指令集和众多合作伙伴,又具有性能高、成本低和能耗省等特点,现已广泛应用于各研发领域。本文介绍了一种基于ARM系统的手持式心电图机检定仪,它采用32位ARM芯片作为主控芯片,彩色触摸式液晶屏幕作为人机操作界面,同时具有无线通信和大容量存储功能。  关键词:心电图机检定仪;ARM控制器;设计  引言  心电图机是用来记录心脏活动时所产生的生理电信号的仪器,由于其
期刊
摘要:通信光缆的应用范围越来越广泛,由于各种原因造成的通信光缆的破坏使国家遭受重大损失,本文就通信光缆的防护作简要的探讨。  关键词:通信光缆;防护技术;电力通信  前言:  通信光缆由于体积小、抗干扰性强、质量轻、传输距离远、传输容量大等特点,在各行业中的應用越来越广泛,因此通信光缆的防护显得尤为重要。  一、光纤通信中光缆常见的故障  (一)各种腐蚀导致的光缆受损  最常见的光缆腐蚀受损便是光
期刊
摘要:在现代化技术的蓬勃发展下,社会各行各业开始更新观念,将其引进到行业发展中。其中电子信息工程的现代化技术是指以计算机网络技术为核心,在控制处理电子信息的过程中所应用的综合型的现代化信息技术。虽然我国在电子信息工程方面的建设和发展都取得了相应的成就,但是与国外的电子信息工程技术相比,仍然还存在着很大的差距。因此,这就需要针对目前我国电子信息工程发展中存在的问题,采取相适应的电子信息技术发展对策,
期刊
摘要:随着我国社会经济建设的发展,科学技术水平不断提高,信息化的发展也进入了新阶段。计算机互联网也在各行业也不断渗透和发展,给各行各业带来了极大的便利。随着我国医疗卫生体制改革的不断深入,医院对于文书档案的管理工作的要求越来越高。医疗卫生事业一直以来都受到社会各界的重点关注对象,医院是人们进行治疗疾病的重要场所,关乎到我们每一个人的生命和健康。文书档案对于临床诊断与治疗的整个过程都参与其中,文书档
期刊
摘要:在全球经济建设风靡的今天,我国城市化进程速度不断加快,随着工程建设规模的不断扩大,建筑电气施工管理在工程建设中也起到了举足轻重的作用,是建设企业的核心组成部分,电气施工建设过程中,电气安装质量的优劣对整个建筑工程的使用性能的好坏起到决定性作用,因此,在工程就建设施工中,要重点对施工前期准备、过程中的各电气安装环节以及工程竣工后的质量要求及工作进行严格的质量管控,本文就建筑电气施工过程中的管理
期刊