论文部分内容阅读
摘要:为了更好地輔助企业进行危机管理,以在线评论为研究对象,构建了企业网络口碑危机评估模型。利用支持向量机分类方法对文本进行情感分类获取负面评论数据集,基于词频分析提取危机特征词并确立其权重,基于语义的分类分析特征词情感强度。把特征词的权重和情感强度作为危机程度的衡量指标,将危机在二位坐标系定位,根据不同象限危机特点,采取不同的措施应对。以携程酒店为例进行实证研究的结果表明,该模型是可行的,可以有效进行危机评估。
关键词:文本挖掘;危机管理;二维象限分析
Abstract:In order to better assist the enterprise to carry out crisis management,the enterprise network word-of-mouth crisis assessment model was put forword by using online reviews as research subjects.The model choose support vector machine classification method to attain the emotional classification of text and get negative review data set,based on word frequency analysis to extract the key words and establish its weights,based on the classification of adverbs of degree to analysis the emotional intensity of key words.Then the weight and emotional intensity of the key words are regarded as the measure of the degree of crisis.On this basis,the crisis is positioned in two coordinates.According to the characteristics of different quadrant crises,take different measures to deal with them.The results of the empirical study of ctrip hotel show that the model is feasible and can evaluate crisis effectively.
Key Words:Text Mining;Crisis Management;Two - dimensional Quadrant Analysis
一 引言
互联网时代,电子商务发展迅速。大量的消费者在线评论聚集于网上,其中涉及包含了消费者的隐性需求及对企业产品或服务的情感态度,这成为企业可以分析利用的信息资产。但不可忽视的一点是企业的网络口碑是有方向之分的,负面网络口碑借助互联网的便捷性和广域性在平台上大肆传播会引发网络口碑危机,抑制企业产品或服务的销售,降低顾客忠诚度,甚至还会危及企业经营。由此可见,网络口碑危机的影响是较长远的。对在线评论进行挖掘,及时察觉可能出现的危机信号,并对其进行评估,这对互联网时代下的企业进行危机管理具有关键意义。
本研究综合考虑网络口碑中隐含的丰富信息与企业当前危机管理的弊端,以在线评论为研究对象,建立一个企业网络口碑危机评估模型。这个模型利用文本挖掘技术对在线评论这种非结构化文本数据进行处理,通过文本分类提取酒店负面评论数据集,基于酒店负面评论数据集挖掘酒店网络口碑危机的特征词,并基于词频确定特征词的权重,基于程度副词分析特征词情感强度。将特征词的权重和情感强度作为这个特征危机程度的测量属性,将其映射到二维象限,对其进行类别划分,从而实现企业某一方面危机程度的精准定位,为企业危机管理提供辅助。
二 相关研究与方法
2.1 企业危机管理研究
当前,学者们对企业危机管理的研究主开始基于大数据背景。李金海,何有世[1]等认为大数据时代由在线评论导致的网络口碑危机是企业不可忽视的外部危机,企业应该重点对其管理。他们指出网络口碑危机主要源于负面评论信息,对其进行挖掘分析可以获取企业危机信号。张丽[2]分析了大数据增长给企业危机管理带来的挑战并强调了危机的类型、危机的发展速度、危机的发展程度都应该是企业决策者应对危机必须掌握的信息。
学者们已经从理论上认识到在大数据时代对在线评论进行挖掘获取企业潜在危机的必要性,并指出了危机评估应该基于多维度。但是在实证研究的过程中,学者们在进行企业危机评估时,仍然只考虑了单一指标。张艳丰等[3]以美团外卖为例,对外卖店家进行口碑危机分类时只把产品销量作为危机严重程度的衡量指标,他们认为产品销量高,危机发展程度低,危机严重程度相对较轻。李明等 [4]基于微博平台上的评论信息对企业网络口碑危机进行研判时,指出对负面在线评论进行挖掘获得消费者关注点,消费者关注度高的危机发展速度快,危机严重程度应该引起企业重视。
上述实证研究在进行企业危机评估时,对危机严重程度的衡量都比较片面。本文将综合考虑危机发展速度与危机危害程度两个指标对携程酒店网络口碑危机进行评估,负面评论中消费者关注度代表危机发展速度,负面评论中消费者情感强度代表危机危害程度。
2.2 文本挖掘研究
网络客户评论中的产品特征挖掘是指通过机器从大量的网络客户产品评论中自动地获取所关注的产品特征,这项技术是分析用户对于产品具体特征所持情感倾向的前提。产品特征挖掘研究已经取得了一些成果。Hu和Liu等学者首先提出应 用关联规则分类方法提取英文评论中的产品特征并成功运用[5]。李实[6,7]等通过构建中文语料库。利用关联规则中的Apfiofi算法提取产品特征并修正中文词序。韩雪婷[8]进一步采用K—means聚类算法进行聚类,深化了李实等的研究。张璐[9]等通过对产品网络评论进行分词和词频统计,通过抽取高频名词和名词短语作为产品属性特征。 情感分析(sentiment analysis)也称意见挖掘(opinion mining),是利用文本挖掘技术,对在线评论进行语义分析,旨在识别用户的情感趋向是 “高兴”还是“伤悲”,或判断用户的观点是“赞同”还是“反对”。从技术方法来看有两种方向:一种是基于语义分析[10],另一种是基于机器学习[11]。在语义分析的方法上,情感词典匹配的方法产品特征情感强度的细粒度分类上应用效果较好[12]。在机器学习算法中SVM算法应用广泛,且分类效果好[13-14]。
三 研究设计
3.1 网络口碑危机评估模型框架
网络口碑危机评估模型机制是基于在线评论挖掘建立的,它的目标是及时发现企业危机信号,并进行危机程度的评估,辅助企业进行危机管理。按照信息处理顺序,它主要分为3个部分:数据准备、危机识别、危机评估。如下图
3.2 数据准备
3.2.1 数据采集
网络信息数量庞杂、信息非结构化,要根据研究的需要选择合适的数据源才能达到研究目的,本文数据源为携程旅游网。携程旅行网拥有国内外六十余万家会员酒店可供预订,是中国领先的酒店预订服务中心。大量用户通过携程旅游网预定酒店,并在享受酒店服务后,创建用户网络在线评论。利用网络爬虫软件进行爬取,通过预设采集算法和规则,以列表形式获取评论用户名称和评论内容。
3.2.2 数据预处理
利用网络爬虫软件采集到的数据,有一些是对研究主题没有价值的,这部分信息需要过滤,否则会降低后续挖掘结果的准确性。通过对评论数据的研究分析,确定要过滤掉的这部分评论包括:(1)与主题无关的评论,比如植入的广告评论;(2)字数过少、属性缺失的评论信息,比如有用户评论“还好吧”,这种不能提供对研究有用的信息的评论要予以删除。
3.3 危机识别
3.3.1 通过情感极性分类确定负面评论数据集
基于SVM良好的文本分类能力,本文选用信息增益[15]作为文本特征选择方法运用SVM情感分类方法对酒店用户评论进行情感极性分类。在进行分类前,先要对SVM进行性能测试,步骤如下:
(1)获取训练文本集和测试文本集:从经过预处理之后得到的有效评论信息中,分别选200条评论作为训练集,100评论作为测试文本集
(2)训练分类模型:以0标记消极,以1标记积极,用获取的训练文本集进行分类模型训练
(3)用分类模型对测试文本集进行分类
(4)根据测试结果评估分类模型效果:现阶段,学者们主要使用查全率和查准率两个指标来评估。这两个指标反映的是分类质量的两个不同方面,查全率衡量完整性,查准率衡量准确性。计算过程如下:
综合考虑这两个指标来评估分类模型效果。分类的查全率和查准率都较高,分类性能测试良好,则可以利用此SVM训练的分类模型对其他酒店评论进行分类,从而得到研究所需的酒店的负面评论数据集。
3.3.2 酒店危机特征词提取
为了更好的对酒店的用戶在线评论进行分词,本文结合搜狗酒店词典与ROST CM自带的词典构建手机产品分词语料库,作为分词的语料词典。通过ROST CM软件对由SVM情感极性分类所得负面评论集进行评分词和词频统计分析。
根据词频统计结果,选取排名前50高频名词和名词短语,再对高频词进行清洗和整理。清洗50个高频名词和名词短语后,会发现有一些表述不同但意思相同的词项,比如“早餐”和“早饭”,学者们将其称为同类属性,经研究同类属性只有进行合并才能更好地进行情感分析[16]。本研究在选取了词频统计结果中的高频词并进行了同类属性的合并之后,确立了酒店网络口碑危机特征词。
3.4 危机评估
3.4.1 特征词权重确立
通过对酒店负面用户的网络进行分词和词频统计得到酒店网络口碑危机特征词。特证词的词频数越大,代表此类危机发生的次数越多,此类危机发展速度也就越快。本研究特征词的权重基于词频确立,将选取的高频词(包括同类属性)的频数从高到低依次在表格中列出,然后进行归一化处理后,就得到了酒店网络口碑危机特征词的权重。特征词的权重就代表了危机发生的次数,表明了危机的发展速度。
3.4.2 特征词情感强度分析
对于特征词情感强度的分析方法,本文将借鉴张鸣专门为酒店特征情感分类设计的情感词典匹配方法,采用情感程度副词匹配方法进行酒店特征情感强度分析。具体的步骤如下:
(1)利用ROSTCM软件的分类分析功能对SVM情感极性分类得到的某个酒店的负面评论数据集基于提取的特征词进行分类,获取每个特征的负面评论数据集。
(2)情感强度分类的确定:情感强度分类词典的构建上,本文将借鉴张鸣在其研究中构建的情感强度词典结合本文的数据集和研究需要构建情感强度程度副词分类词典如表3所示。
(3)对选取的某个酒店的每个特征的负面评论数据集与程度副词进行匹配,获取每个特征每一类情感强度的负面评论数据集。
(4)对每个特征每一类情感强度的负面评论数据集的数目进行统计,以表格的形式显示,并作归一化处理,计算每个特征的最终情感强度值,计算方法为每一类情感强度数值与特征属于该情感强度的概率的乘积的总和。
某个特征的情感强度越大,代表用户对于此酒店特征的评价越低,此特征造成企业口碑危机的影响程度也就越大危害程度也就越大。
四 结论
互联网时代,信息在网络上传播速度快、范围广,在这种情况下企业的危机也会被放大。负面在线评论包含了用户对企业产品或服务的意见和情感态度,这是企业获取危机信号的重要渠道。企业应该重视并利用好这一信息资源,及时获取企业危机信号,更好地进行危机管理。因此研究基于在线评论挖掘构建了网络口碑危机评估模型。通过文本分类提取酒店负面评论数据集,基于酒店负面评论数据集挖掘酒店网络口碑危机的特征词,并基于词频确定特征词的权重,基于程度副词分析特征词情感强度。将特征词的权重和情感强度作为这个特征危机程度的测量属性,将其映射到二维象限,对其进行类别划分,从而实现企业某一方面危机程度的精准定位,为企业危机管理提供辅助。从实验的结果来看,研究建立的模型是可行的。
参考文献:
[1]李金海,何有世.大数据时代基于在线评论挖掘的企业网络口碑危机预警研究[J].情报杂志,2015,(2):53-58
[2]张丽.大数据时代企业危机管理策略研究[J].内蒙古财经大学学报,2016,(4):38-41
[3]张艳丰,李贺.负面评论挖掘的网络口碑危机预警模糊推理[J].图书情报工作,2016,(9):75-82
[4]李明,王高飞.基于微博平台的企业网络口碑危机预警研究[J].北方经贸,2016,(8):42-43
[5]Iju B,Hu M Q,Cheng J S.Opinion Observer:Analyzing and Com— paring Opinions on the Web[C].Proceedings of Thel4th Interna— donal World wide WebConferenee(wWw一2005),2005.342—351.
[6]李实.中文网络客户评论中的产品特征挖掘方法研究[D].哈 尔滨工业大学,2009.
[7]李实,陆光.修正中文评论挖掘中产品特征词序的实验研究[J].科学技术与工程,2012(21):5181—5186.
[8]韩雪婷,李炜,沈奇威.用户评论中产品特征的抽取及聚类[J].计算机系统应用,2013(5):188—192.
[9] 张璐,吴菲菲,黄鲁成. 基于用户网络评论信息的产品创新研究[J]. 软科学,2015,29(5):12-16.
[10] 周 哲,商 琳. 一种基于动态词典和三支决策的情感分析方法[J]. 山东大学学报(工学版),2015,45(1):19
基金项目:
本文受到山东省高校人文社科研究计划项目(J16YF15)、青岛市社科规划项目(QDSKL1601077)的支持。
作者简介:
李琦(1992-),男,硕士研究生,963334593@qq.com;张宁,男,副教授,zhang_ning1980@126.com;何立峰,男,硕士研究生。
关键词:文本挖掘;危机管理;二维象限分析
Abstract:In order to better assist the enterprise to carry out crisis management,the enterprise network word-of-mouth crisis assessment model was put forword by using online reviews as research subjects.The model choose support vector machine classification method to attain the emotional classification of text and get negative review data set,based on word frequency analysis to extract the key words and establish its weights,based on the classification of adverbs of degree to analysis the emotional intensity of key words.Then the weight and emotional intensity of the key words are regarded as the measure of the degree of crisis.On this basis,the crisis is positioned in two coordinates.According to the characteristics of different quadrant crises,take different measures to deal with them.The results of the empirical study of ctrip hotel show that the model is feasible and can evaluate crisis effectively.
Key Words:Text Mining;Crisis Management;Two - dimensional Quadrant Analysis
一 引言
互联网时代,电子商务发展迅速。大量的消费者在线评论聚集于网上,其中涉及包含了消费者的隐性需求及对企业产品或服务的情感态度,这成为企业可以分析利用的信息资产。但不可忽视的一点是企业的网络口碑是有方向之分的,负面网络口碑借助互联网的便捷性和广域性在平台上大肆传播会引发网络口碑危机,抑制企业产品或服务的销售,降低顾客忠诚度,甚至还会危及企业经营。由此可见,网络口碑危机的影响是较长远的。对在线评论进行挖掘,及时察觉可能出现的危机信号,并对其进行评估,这对互联网时代下的企业进行危机管理具有关键意义。
本研究综合考虑网络口碑中隐含的丰富信息与企业当前危机管理的弊端,以在线评论为研究对象,建立一个企业网络口碑危机评估模型。这个模型利用文本挖掘技术对在线评论这种非结构化文本数据进行处理,通过文本分类提取酒店负面评论数据集,基于酒店负面评论数据集挖掘酒店网络口碑危机的特征词,并基于词频确定特征词的权重,基于程度副词分析特征词情感强度。将特征词的权重和情感强度作为这个特征危机程度的测量属性,将其映射到二维象限,对其进行类别划分,从而实现企业某一方面危机程度的精准定位,为企业危机管理提供辅助。
二 相关研究与方法
2.1 企业危机管理研究
当前,学者们对企业危机管理的研究主开始基于大数据背景。李金海,何有世[1]等认为大数据时代由在线评论导致的网络口碑危机是企业不可忽视的外部危机,企业应该重点对其管理。他们指出网络口碑危机主要源于负面评论信息,对其进行挖掘分析可以获取企业危机信号。张丽[2]分析了大数据增长给企业危机管理带来的挑战并强调了危机的类型、危机的发展速度、危机的发展程度都应该是企业决策者应对危机必须掌握的信息。
学者们已经从理论上认识到在大数据时代对在线评论进行挖掘获取企业潜在危机的必要性,并指出了危机评估应该基于多维度。但是在实证研究的过程中,学者们在进行企业危机评估时,仍然只考虑了单一指标。张艳丰等[3]以美团外卖为例,对外卖店家进行口碑危机分类时只把产品销量作为危机严重程度的衡量指标,他们认为产品销量高,危机发展程度低,危机严重程度相对较轻。李明等 [4]基于微博平台上的评论信息对企业网络口碑危机进行研判时,指出对负面在线评论进行挖掘获得消费者关注点,消费者关注度高的危机发展速度快,危机严重程度应该引起企业重视。
上述实证研究在进行企业危机评估时,对危机严重程度的衡量都比较片面。本文将综合考虑危机发展速度与危机危害程度两个指标对携程酒店网络口碑危机进行评估,负面评论中消费者关注度代表危机发展速度,负面评论中消费者情感强度代表危机危害程度。
2.2 文本挖掘研究
网络客户评论中的产品特征挖掘是指通过机器从大量的网络客户产品评论中自动地获取所关注的产品特征,这项技术是分析用户对于产品具体特征所持情感倾向的前提。产品特征挖掘研究已经取得了一些成果。Hu和Liu等学者首先提出应 用关联规则分类方法提取英文评论中的产品特征并成功运用[5]。李实[6,7]等通过构建中文语料库。利用关联规则中的Apfiofi算法提取产品特征并修正中文词序。韩雪婷[8]进一步采用K—means聚类算法进行聚类,深化了李实等的研究。张璐[9]等通过对产品网络评论进行分词和词频统计,通过抽取高频名词和名词短语作为产品属性特征。 情感分析(sentiment analysis)也称意见挖掘(opinion mining),是利用文本挖掘技术,对在线评论进行语义分析,旨在识别用户的情感趋向是 “高兴”还是“伤悲”,或判断用户的观点是“赞同”还是“反对”。从技术方法来看有两种方向:一种是基于语义分析[10],另一种是基于机器学习[11]。在语义分析的方法上,情感词典匹配的方法产品特征情感强度的细粒度分类上应用效果较好[12]。在机器学习算法中SVM算法应用广泛,且分类效果好[13-14]。
三 研究设计
3.1 网络口碑危机评估模型框架
网络口碑危机评估模型机制是基于在线评论挖掘建立的,它的目标是及时发现企业危机信号,并进行危机程度的评估,辅助企业进行危机管理。按照信息处理顺序,它主要分为3个部分:数据准备、危机识别、危机评估。如下图
3.2 数据准备
3.2.1 数据采集
网络信息数量庞杂、信息非结构化,要根据研究的需要选择合适的数据源才能达到研究目的,本文数据源为携程旅游网。携程旅行网拥有国内外六十余万家会员酒店可供预订,是中国领先的酒店预订服务中心。大量用户通过携程旅游网预定酒店,并在享受酒店服务后,创建用户网络在线评论。利用网络爬虫软件进行爬取,通过预设采集算法和规则,以列表形式获取评论用户名称和评论内容。
3.2.2 数据预处理
利用网络爬虫软件采集到的数据,有一些是对研究主题没有价值的,这部分信息需要过滤,否则会降低后续挖掘结果的准确性。通过对评论数据的研究分析,确定要过滤掉的这部分评论包括:(1)与主题无关的评论,比如植入的广告评论;(2)字数过少、属性缺失的评论信息,比如有用户评论“还好吧”,这种不能提供对研究有用的信息的评论要予以删除。
3.3 危机识别
3.3.1 通过情感极性分类确定负面评论数据集
基于SVM良好的文本分类能力,本文选用信息增益[15]作为文本特征选择方法运用SVM情感分类方法对酒店用户评论进行情感极性分类。在进行分类前,先要对SVM进行性能测试,步骤如下:
(1)获取训练文本集和测试文本集:从经过预处理之后得到的有效评论信息中,分别选200条评论作为训练集,100评论作为测试文本集
(2)训练分类模型:以0标记消极,以1标记积极,用获取的训练文本集进行分类模型训练
(3)用分类模型对测试文本集进行分类
(4)根据测试结果评估分类模型效果:现阶段,学者们主要使用查全率和查准率两个指标来评估。这两个指标反映的是分类质量的两个不同方面,查全率衡量完整性,查准率衡量准确性。计算过程如下:
综合考虑这两个指标来评估分类模型效果。分类的查全率和查准率都较高,分类性能测试良好,则可以利用此SVM训练的分类模型对其他酒店评论进行分类,从而得到研究所需的酒店的负面评论数据集。
3.3.2 酒店危机特征词提取
为了更好的对酒店的用戶在线评论进行分词,本文结合搜狗酒店词典与ROST CM自带的词典构建手机产品分词语料库,作为分词的语料词典。通过ROST CM软件对由SVM情感极性分类所得负面评论集进行评分词和词频统计分析。
根据词频统计结果,选取排名前50高频名词和名词短语,再对高频词进行清洗和整理。清洗50个高频名词和名词短语后,会发现有一些表述不同但意思相同的词项,比如“早餐”和“早饭”,学者们将其称为同类属性,经研究同类属性只有进行合并才能更好地进行情感分析[16]。本研究在选取了词频统计结果中的高频词并进行了同类属性的合并之后,确立了酒店网络口碑危机特征词。
3.4 危机评估
3.4.1 特征词权重确立
通过对酒店负面用户的网络进行分词和词频统计得到酒店网络口碑危机特征词。特证词的词频数越大,代表此类危机发生的次数越多,此类危机发展速度也就越快。本研究特征词的权重基于词频确立,将选取的高频词(包括同类属性)的频数从高到低依次在表格中列出,然后进行归一化处理后,就得到了酒店网络口碑危机特征词的权重。特征词的权重就代表了危机发生的次数,表明了危机的发展速度。
3.4.2 特征词情感强度分析
对于特征词情感强度的分析方法,本文将借鉴张鸣专门为酒店特征情感分类设计的情感词典匹配方法,采用情感程度副词匹配方法进行酒店特征情感强度分析。具体的步骤如下:
(1)利用ROSTCM软件的分类分析功能对SVM情感极性分类得到的某个酒店的负面评论数据集基于提取的特征词进行分类,获取每个特征的负面评论数据集。
(2)情感强度分类的确定:情感强度分类词典的构建上,本文将借鉴张鸣在其研究中构建的情感强度词典结合本文的数据集和研究需要构建情感强度程度副词分类词典如表3所示。
(3)对选取的某个酒店的每个特征的负面评论数据集与程度副词进行匹配,获取每个特征每一类情感强度的负面评论数据集。
(4)对每个特征每一类情感强度的负面评论数据集的数目进行统计,以表格的形式显示,并作归一化处理,计算每个特征的最终情感强度值,计算方法为每一类情感强度数值与特征属于该情感强度的概率的乘积的总和。
某个特征的情感强度越大,代表用户对于此酒店特征的评价越低,此特征造成企业口碑危机的影响程度也就越大危害程度也就越大。
四 结论
互联网时代,信息在网络上传播速度快、范围广,在这种情况下企业的危机也会被放大。负面在线评论包含了用户对企业产品或服务的意见和情感态度,这是企业获取危机信号的重要渠道。企业应该重视并利用好这一信息资源,及时获取企业危机信号,更好地进行危机管理。因此研究基于在线评论挖掘构建了网络口碑危机评估模型。通过文本分类提取酒店负面评论数据集,基于酒店负面评论数据集挖掘酒店网络口碑危机的特征词,并基于词频确定特征词的权重,基于程度副词分析特征词情感强度。将特征词的权重和情感强度作为这个特征危机程度的测量属性,将其映射到二维象限,对其进行类别划分,从而实现企业某一方面危机程度的精准定位,为企业危机管理提供辅助。从实验的结果来看,研究建立的模型是可行的。
参考文献:
[1]李金海,何有世.大数据时代基于在线评论挖掘的企业网络口碑危机预警研究[J].情报杂志,2015,(2):53-58
[2]张丽.大数据时代企业危机管理策略研究[J].内蒙古财经大学学报,2016,(4):38-41
[3]张艳丰,李贺.负面评论挖掘的网络口碑危机预警模糊推理[J].图书情报工作,2016,(9):75-82
[4]李明,王高飞.基于微博平台的企业网络口碑危机预警研究[J].北方经贸,2016,(8):42-43
[5]Iju B,Hu M Q,Cheng J S.Opinion Observer:Analyzing and Com— paring Opinions on the Web[C].Proceedings of Thel4th Interna— donal World wide WebConferenee(wWw一2005),2005.342—351.
[6]李实.中文网络客户评论中的产品特征挖掘方法研究[D].哈 尔滨工业大学,2009.
[7]李实,陆光.修正中文评论挖掘中产品特征词序的实验研究[J].科学技术与工程,2012(21):5181—5186.
[8]韩雪婷,李炜,沈奇威.用户评论中产品特征的抽取及聚类[J].计算机系统应用,2013(5):188—192.
[9] 张璐,吴菲菲,黄鲁成. 基于用户网络评论信息的产品创新研究[J]. 软科学,2015,29(5):12-16.
[10] 周 哲,商 琳. 一种基于动态词典和三支决策的情感分析方法[J]. 山东大学学报(工学版),2015,45(1):19
基金项目:
本文受到山东省高校人文社科研究计划项目(J16YF15)、青岛市社科规划项目(QDSKL1601077)的支持。
作者简介:
李琦(1992-),男,硕士研究生,963334593@qq.com;张宁,男,副教授,zhang_ning1980@126.com;何立峰,男,硕士研究生。