论文部分内容阅读
〔摘要〕网络搜索数据是消费者在信息搜集和购买决策过程中真实足迹的反映,对了解消费者购买需求具有重要价值。本文运用与现有研究不同的关键词获取方法,以我国汽车市场为背景,研究网络搜索数据与销量之间的关系。首先,确定网络搜索数据的关键词,主要运用了文本挖掘技术,具体而言:①对抓取的汽车论坛文本进行Jieba分词;②利用Word2vec模型把分词结果转化为向量空间模型形式;③结合TF-IDF算法和余弦相似度算法确定关键词。然后,基于108个月的长面板数据,建立网络搜索与汽车销量的固定效应模型。最后,采取滚动窗口的方式预测最近12个月的汽车销量。实证结果显示:网络搜索与汽车销量之间存在长期均衡关系,回归模型可以解释76%的方差;网络搜索数据有助于预测我国汽车销量。
〔关键词〕网络搜索数据;消费者;购买需求;汽车销量;文本挖掘;关键词获取;长面板数据;预测
DOI:10.3969/j.issn.1008-0821.2016.08.026
〔中图分类号〕F27213〔文献标识码〕A〔文章编号〕1008-0821(2016)08-0131-06
〔Abstract〕The online searching data reflects the real traces that consumers leave behind while gathering some information or making purchase decisions.The online searching data benefits us to know the information of what is the consumers need.In our paper,the selection of keywords differents from the existing researches,on the background of Chinas automobile market,the paper researched the relationship between online searching data and Chinese automobile sales.Firstly,identified the key words of online searching mainly according the text mining technology,to be specific:①Using Jieba segmenting the automobile BBS text captured to words;②Converting segmentary words to the Vector space model by Word2vec model;③Combining TF-IDF algorithm and cosine similarity algorithm to determinate the key words.Then,based on the 108 months long panel data,the paper established a fixed effect model between the online searching data and the automobile sales.Finally,the paper forecasted the automobile sales in nearly 12 months.The empirical result showed that:there is a Long-run equilibrium relationship between the online searching data and the automobile sales,and regression model can explain 76% of the variance.The holdout analysis suggested that online searching data can be of substantial use to forecast the Chinas automobile sales.
〔Key words〕online searching data;consumer;purchase decision;automobile sales;text mining;keywords obtaining;long panel data;forcast
搜索引擎已经成为消费者决策过程中信息搜索和评价过程的起点,根据在CNNIC调查社区进行的搜索营销调查显示,有77%的互联网用户在购买产品之前会上网搜索信息[1]。网民的搜索需求在一定程度上反映了他们的关注点和意图,而网络搜索数据正是对网民搜索需求的客观记录。网络搜索数据的这一特性使其能够映射用户实际生活中的行为特点,并影响企业经营和政府管理方式,成为目前研究大数据的主要方向之一。
本文以我国汽车市场为背景,研究网络搜索数据与汽车销量之间的关系。之所以选择汽车作为研究对象,是因为汽车产品属性复杂并且要求较大资金投入,消费者在购买汽车时会对汽车产品各种属性进行仔细考察和评估。不仅如此,汽车也是研究消费者外部搜索相关文献中最为常用的产品对象之一[2]。
1研究意义与思路
11研究意义
网络搜索数据的利用价值已经得到了学术界的广泛关注。国外学者在房地产[3]、就业[4]、股票[5]、汽车和旅游[6]等众多领域都验证了谷歌搜索数据的作用。但是在中国,百度是应用最多的搜索引擎,因而用百度搜索指数研究中国的社会经济行为更符合实际情况。任乐通过计算相关系数、确定领先阶数并合成百度搜索指数,实证了北京市搜索数据与月旅游客流量之间的相关关系[7];袁庆玉等从网络关键词搜索数据与汽车销量的角度建立了理论基础框架,采用综合赋权法对关键词进行提取,预测了汽车销量[8]。 但是对国内现有研究而言,利用网络搜索数据预测用户需求仍属于一个新的研究领域,并没有形成系统的研究体系,还存在以下不足:(1)对于关键词的选取还存在争议。多数研究是直接指定关键词,或者是结合百度自动生成的关键词来提取指数,并没有考虑关键词能否代表用户实际的网络搜索行为。(2)预测模型多采用时间序列的静态回归或者是对短面板数据的建模,不利于控制不同个体间的差异,也不利于准确地反映和刻画在时间推移的过程中网络搜索数据对销售影响的动态变化。
为弥补现有研究存在的不足,本文在关键词选择和模型设定上都作出了改进,目的是验证网络搜索数据如何反映当前的汽车销量并预测未来的销量变化趋势。本文的主要工作是:提出了一套结构化的流程来提取网络搜索数据关键词,并应用于我国汽车市场的研究。该流程为网络搜索数据在其他领域的研究提供了参考。
12研究思路
本文的研究思路如下:①对汽车销量预测和网络搜索数据应用的相关研究进行梳理,总结出现有研究存在的不足;②以2007-2015年国内市场的汽车销量为研究对象,基于文本挖掘技术,提出一套结构化的流程,获得网络搜索数据的关键词,用于提取出百度搜索指数;③为避免百度搜索指数和汽车销量之间存在伪回归的可能性,对变量做了单位根检验和格兰杰因果检验;④基于108个月的长面板数据,建立百度搜索指数与汽车销量的固定效应模型,据此验证网络搜索数据如何反映当前的销量;⑤采用滚动窗口的方式预测最近12个月的汽车销量,来检验网络搜索数据的预测效力。
2文献综述
21有关汽车销量预测的相关研究
关于国内汽车销量的预测,从以往的相关研究来看,学者从定性和定量两个方面进行了相关研究。在定性方面,如:门峰等针对我国汽车产业的发展方向进行研究,认为我国汽车产业已经成为国民经济的重要支柱产业,并预测未来5~10年是我国由汽车工业大国向汽车工业强国转变的重要时期[9];王莉分析了国际金融危机给中国汽车行业带来的总体影响[10]。定量方面的研究则可以分为两个层面:一是单方法预测法(包括多元回归分析法、时间序列预测法、神经网络分析法),如:陈欢通过定性灰色预测模型的方法对汽车销量进行了预测[11],该方法能够反映复杂数据的非线性和汽车销量数据自身的规律性,但对历史数据过于依赖,历史数据越多,预测结果越可靠;郭顺生等基于时间序列ARMA模型对中国汽车的月销量数据进行预测[12];汪玉秀等综合汽车颜色、排量及版本类型3个因素,建立了马尔科夫过程的4S店汽车销量预测模型(预测绝对误差均小于5%)[13]。二是组合预测方法,如:李响等基于ARMA模型与RBF神经网络相结合的混合模型预测了天津市日汽车销量,认为组合模型相对于单一的预测模型有较高的预测精度[14];蔡宾等采用改进差分进化算法和灰色模型对几个主要汽车品牌的销量进行了预测,并对汽车销量的发展趋势作出了判断[15];李莉通过建立灰色模型和马尔科夫模型相结合的组合预测模型预测了我国小排量汽车的销量,该模型整合了GM(1,1)模型处理光滑序列的有效性和灰色马尔科夫链处理随机序列的有效性,反映出了数据序列的发展趋势[16]。
无论是传统的定性预测方法,还是定量预测都只能依赖于历史数据,但历史数据具有很强的延迟性,而且其预测的粒度较大,一般为汽车销量的年度数据。另外,与传统的预测方法相比,人工智能建模方法虽然预测精度较高,但也存在算法复杂性高,应用广泛性和对原始数据的变化趋势依赖性较强等缺陷和不足。
22基于网络搜索数据的经济类、社会类行为相关性研究目前基于网络搜索数据的经济社会类行为预测已成为各领域学者们研究的一个新的热点,并在国内外都取得了一定的研究成果。在宏观经济领域,Vosen等利用网络搜索趋势也对家庭支出做出了预测[17];Choi等研究如何利用网络搜索数据预测短期经济价值,文中的例子包括房地产、失业索赔、旅游目的地规划和消费者信心[18]。在社会领域,Ripberger等使用网络Query搜索数据对公众的注意力进行衡量,取得了良好效果[19]。国内学者张崇等揭示了网络搜索数据与居民消费价格指数(CPI)之间存在一定的相关关系和先行滞后关系,并取得了良好的预测效果[20]。董倩等发现网络搜索数据不但能够较好地预测房价指数,而且能够分析经济主体行为的趋势与规律,有一定的时效性[21]。孙毅等对相关研究进行了综述,提出基于网络搜索数据的相关性研究是典型的交叉研究,而对于网络搜索数据与经济行为之间的相关性的机理分析、关键词的选择和数据处理模型选择是需要解决的关键问题[22]。
网络搜索数据也开始用来预测汽车销量。Du等发现从谷歌搜索数据中对38个主要汽车品牌提取出来的7大趋势可以从品牌层面解释美国市场74%的汽车销量[23]。国内学者王炼等以百度搜索指数为数据基础,探讨网络搜索在我国汽车市场的预测作用,结果显示网络搜索数据对汽车销量具有显著的正向影响,研究还发现,在其他传统指标的数据无法获得时,网络搜索数据依然能够发挥重要预测作用[24]。但王炼等是对短面板数据进行建模回归,数据量较少,不利于刻画百度搜索指数与社会经济活动的动态变化,也不能确定变量之间是否存在着长期的均衡关系。
综上所述,虽然网络搜索数据可以作为传统数据的良好补充来实现对市场需求的预测,但仍有以下方面可以改进:(1)该领域的很多研究都是以谷歌趋势为数据源。虽然谷歌是全球最大的搜索引擎,但依然存在很多像中国这样的国家偏向于使用本地的搜索引擎,因而应用百度搜索指数研究我国市场需求更符合实际情况。(2)在确定获取百度搜索指数的关键词上,并没有一个系统化、统一的的方法。之前的研究普遍都是手动指定关键词,或者是利用百度自动生成的词。在本文中,我们基于文本挖掘技术,提出了一个结构化的流程来确定检索关键词,可以真实地反映出用户网络搜索的习惯。(3)以往的研究大都采用时间序列数据,或是短面板数据,不利于检验更复杂的行为模型。本文收集了国内市场最近9年的汽车月度销量数据,采用长面板数据建模,可以准确地反映和刻画在时间长期推移的过程中网络搜索数据对销售影响的动态变化。 3实证分析
31数据来源
311汽车销量
本文的汽车销量数据来源于搜狐网站汽车频道(http∥db.auto.sohu.com/cxdata/),该数据为月度更新数据。为了研究网络搜索数据与汽车销量之间的长期相关关系,我们选取的时间段为2007年1月至2015年12月,共108个月。考虑到车型数据在此期间的持续可获得性,我们将连续12个月无销量的车型排除。最终,我们收集了55款车型在此期间的国内市场月度销量数据。
312网络搜索
本文使用的网络搜索数据源于百度搜索指数。百度(baidu.com)是全球最大的中文搜索引擎,截至2015年第三季度,百度在国内的市场份额达到823%,远超过其后的“谷歌中国”(79%)、搜狗(48%)、360搜索(38%)[25]。百度搜索指数是以百度网页搜索为基础的免费海量数据分析服务,可以反映不同关键词在过去一段时间里的“用户关注度”。用户关注度以数千万网民在百度的搜索量为数据基础,以关键词为统计对象,代表了各个关键词在百度网页搜索中的搜索频次,每天更新1次。图1是网络搜索数据的1个示例。显示的是两款车型“普力马”和“福美来”在2015年用户关注度的变化趋势。可以看到,在2015年的大部分时间里,“福美来”受关注程度要高于“普力马”,在2月初,“普力马”的用户关注度大幅上升而超过“福美来”,而在6月份以后,“普力马”的受关注程度又始终低于“福美来”。
32遴选关键词
在研究汽车销量与百度搜索指数之间关系的过程中,选取恰当的网络搜索关键词是非常重要的,直接影响研究结果的可靠性。一方面,由于汽车是属性复杂并且要求较大资金投入的产品,消费者在购买汽车时会对汽车的各种属性进行仔细考察和评估。另一方面,根据CNNIC调查社区开展的搜索营销调查结果,有77%的互联网用户在购买产品前会上网搜索信息[1]。考虑到这一点,我们选取了用户活跃度最高的汽车论坛——汽车之家论坛来提取关键词。为了准确地反映消费者考虑购买汽车并上网搜索信息时所采用的搜索词,我们采取以下详细步骤来确定搜索关键词。
321确定基本词条
我们根据搜狐网站汽车频道(http:∥db.auto.sohu.com/cxdata/)所提供的车型名以及“品牌名 车型名”的组合(如:A4L以及奥迪A4L)来作为最初的基本词条。
322获取基本词条的近义词
在汽车之家论坛(http:∥club.autohome.com.cn/)该车型的论坛主题下,通过自主开发的软件程序,采用抓取网页的方式收集了论坛帖子的内容。为了更准确地确定关键词,我们用文本挖掘技术找出基本词条的同义词。具体过程为:先对抓取后的文本语料进行Jieba分词;利用深度学习的Word2vec模型对分好词的语料做训练,把词转化为向量空间模型的形式;然后结合TF-IDF算法和余弦相似度算法找出与基本词条相似的词条(对于延伸词条我们不予考虑,如A4L油耗),即近义词。对找出来的近义词继续做训练,重复多次,总共得到了452个词条。经过结构化查询语言(SQL)去重后得到了318个词条。
323选取论坛高频词条
对每一词条我们都在论坛的文本中统计出词频,并选取词频较多的词作为百度搜索指数中检索的目标关键词。对于仍有歧义的词条,我们会加上品牌名来作为目标检索关键词,如“金刚”,目标词则为“吉利金刚”。类似的例子还包括“雨燕”、“北斗星”、“高尔夫”等。
324确定最终搜索词条
对目标词在百度搜索指数中进行检索,我们选取在百度指数中排名最高的词作为关键词。对于仍不能确定排名的词,我们再选取其与销量之间在不同滞后期0~6期皮尔逊相关系数最高的词作为搜索关键词。最终得到了55款车型可各自用于百度指数检索的惟一关键词。
对每一个关键词指数我们都计算了其与销量在0~12滞后期的皮尔逊相关系数,表1是关键词的百度搜索指数与销量之间基于最大皮尔逊相关系数的滞后阶数。可以看出滞后期普遍集中在0~2期,且其中大多数滞后期都为0期。对该现象可能的解释是:尽管现实当中消费者在最终购买前可能会产生几个月的信息搜索和评价过程,但是他们搜索的数量和强度都比较小,直到在购买的前1个月其搜索数量会达到1个临界点。
4百度搜索指数与汽车销量的关系
41单位根检验
本文选择实际汽车销量(S)为因变量,以百度搜索指数(B)为自变量。为了减少异方差对检验结果带来的影响,本文数据全部对数处理(lnS,lnB),这样处理也是考虑到了销量和搜索指数的偏斜分布。进行对数处理还有一个好处是,在解释估计结果时能够以百分比变化而非绝对值的变化解释搜索的预测作用。
由于本文的样本数据均为面板数据,和时间序列数据一样,为了保证变量的平稳性和避免伪回归现象,在建立计量经济学模型之前要对变量进行单位根检验和协整检验。常用的面板数据单位根检验方法有LLC检验、PP检验、IPS检验和ADF检验等,本文采用这4种方法同时进行检验,检验结果如表2所示,由于检验原理不同,不同检验方法的结果不尽相同,本文以4种方法结果一致为准,得到汽车销量和网络搜索指数在所有情况下都为水平平稳。由于协整检验的目的是看一组非平稳序列的线性组合是否具有协整关系[26],所以本文不再对汽车销量和网络搜索数据做协整检验,而直接进入Granger因果检验。
42格兰杰因果检验
从实际生活来看,消费者会在购买汽车前上网搜索信息,那么网络搜索发生在购买汽车之前,也即百度搜索指数是汽车销量的原因,为了验证实际数据能否支撑该结论,必须进行格兰杰因果检验,检验的前提条件是数据平稳。从网络搜索到汽车购买,实际产出滞后期有0~2个月,但本研究以网络搜索数据对汽车销量的预测为目的,对同期影响不作考虑。因此本文在进行格兰杰因果检验时将滞后期设定为1~2期,结果如表3所示。 从格兰杰因果检验的结果看,在滞后1期和2期的情况下网络搜索指数与汽车销量存在着双向互动的因果关系。但格兰杰因果检验度量对汽车销量进行预测时,网络搜索数据的前期信息对均方误差MSE减少的贡献要大于另外一种情况。因此网络搜索数据对汽车销量具有预测作用。
51模型设定
采用面板数据分析网络搜索与销量关系时,首先需要用F检验来分析是采用混合回归还是面板数据,结果发现本文应该采用面板数据。在研究它们的关系时很有可能会产生遗漏相关变量的问题。在回归模型中,遗漏重要的相关变量是导致内生性的主要原因。因为一旦这个被遗漏的变量同时与因变量和目标自变量相关,那么目标自变量与随机扰动项的无关性假定就不再成立,这时如果用最小二乘估计,目标自变量的估计就是有偏的。出于此考虑,本文首先采用固定效应模型对面板数据做估计,由此来控制由于遗漏变量而产生的内生性影响,用固定效应模型控制截面变异也是面板数据模型对于截面数据模型的一大优势所在,而且Hausman检验的结果也拒绝了采用随机效应模型来建模。考虑到销量与网络搜索之间存在滞后期,在该模型当中,使用前一期搜索指数和前两期搜索指数作为自变量,以检验前1个月网络搜索和前两期搜索是否都能够预测销量。对车型i在时间t的销量有如下模型:
图2为福克斯三厢实际销量数据和预测销量数据的对比图,其中lnS为实际销量数据的对数值,lnF1、lnF2分别为提前1个月和2个月的预测。从对比图可以看出,百度搜索指数与汽车销量结合程度较好,模型预测效果很好。该结果再次体现了网络搜索数据的预测效力。图2福克斯三厢实际销量数据与预测数据对比图
按照Hyndman[28]提出的方法,本文选择平均绝对误差(MAE)作为评价预测效力的指标。平均绝对误差的单位与因变量的单位一致,易于解释。此外,本文还计算了预测值的均方根误差(RMSE),因为这一指标比平均绝对误差对异常值更加敏感,同时使用能够更加全面地评价模型的预测效力。考虑到要反映误差大小的相对值,本文又计算了不受量纲影响的平均相对误差MPE。
预测结果显示在表5当中,模型预测效果很好,加入百度搜索指数之后模型的拟合优度和预测精度都有了提高,这和格兰杰因果检验百度搜索指数是汽车销量的原因一致。对比网络搜索提前1个月和提前2个月的预测误差,可看出总体差别不大,提前1个月的百度搜索指数预测效果要略优于提前2个月的预测。表5各预测期样本外预测误差结果
误差指标MAERMSE〖〗MPE提前1个月098315790342提前2个月0986158003426结语
本文用文本挖掘技术,对汽车之家论坛帖子提取关键词,以关键词的百度搜索指数为数据基础,研究了网络搜索数据与我国汽车销量之间的关系,发现:①网络搜索数据与汽车销量之间存在着长期均衡关系,且网络搜索数据可以解释汽车销量76%的方差;②可以用提前1个月或2个月的网络搜索数据,对我国汽车销量做预测。
本文的理论意义在于:①基于文本挖掘技术,提出了结构化的流程确定搜索数据关键词,为网络搜索数据在其他领域的研究提供了参考;②对近9年的长面板数据建立模型,检验了网络搜索数据对汽车销量的预测作用。本文的实践意义在于:在不依赖历史销量数据的情况下,可以预测中国市场的汽车销量变动情况,有利于汽车企业制定相关营销策略和调整生产计划,同时也为政府部门制定相关政策提供了参考。
本文的研究局限体现在:采用固定效应模型来探索网络搜索数据对我国汽车销量的影响,在预测效果上还可以使用其他模型来完善。另一方面,本文是基于汽车之家论坛来确定网络检索的关键词,但在以后的研究上可以考虑综合如微信、微博、博客等其他社交媒体来全方位捕捉消费者的在线行为足迹。
参考文献
[1]中国互联网络信息中心.2012年中国网民消费行为调查报告[R].中国互联网络信息中心,2013.http:∥www.cnnic.cn/hlwfzyj/hlwxzbg/dzswbg/201301/t2013011638522.htm,4-4.
[2]Klein L R.Evaluating the Potential of Interactive Media through a New Lens:Search versus Experience Goods[J].Journal of Business Research,1998,41(3):195-203.
[3]Wu L,Brynjolfsson E.The Future of Prediction:How Google Searches Foreshadow Housing Prices and Sales[J].Social Science Electronic Publishing,2014.
〔关键词〕网络搜索数据;消费者;购买需求;汽车销量;文本挖掘;关键词获取;长面板数据;预测
DOI:10.3969/j.issn.1008-0821.2016.08.026
〔中图分类号〕F27213〔文献标识码〕A〔文章编号〕1008-0821(2016)08-0131-06
〔Abstract〕The online searching data reflects the real traces that consumers leave behind while gathering some information or making purchase decisions.The online searching data benefits us to know the information of what is the consumers need.In our paper,the selection of keywords differents from the existing researches,on the background of Chinas automobile market,the paper researched the relationship between online searching data and Chinese automobile sales.Firstly,identified the key words of online searching mainly according the text mining technology,to be specific:①Using Jieba segmenting the automobile BBS text captured to words;②Converting segmentary words to the Vector space model by Word2vec model;③Combining TF-IDF algorithm and cosine similarity algorithm to determinate the key words.Then,based on the 108 months long panel data,the paper established a fixed effect model between the online searching data and the automobile sales.Finally,the paper forecasted the automobile sales in nearly 12 months.The empirical result showed that:there is a Long-run equilibrium relationship between the online searching data and the automobile sales,and regression model can explain 76% of the variance.The holdout analysis suggested that online searching data can be of substantial use to forecast the Chinas automobile sales.
〔Key words〕online searching data;consumer;purchase decision;automobile sales;text mining;keywords obtaining;long panel data;forcast
搜索引擎已经成为消费者决策过程中信息搜索和评价过程的起点,根据在CNNIC调查社区进行的搜索营销调查显示,有77%的互联网用户在购买产品之前会上网搜索信息[1]。网民的搜索需求在一定程度上反映了他们的关注点和意图,而网络搜索数据正是对网民搜索需求的客观记录。网络搜索数据的这一特性使其能够映射用户实际生活中的行为特点,并影响企业经营和政府管理方式,成为目前研究大数据的主要方向之一。
本文以我国汽车市场为背景,研究网络搜索数据与汽车销量之间的关系。之所以选择汽车作为研究对象,是因为汽车产品属性复杂并且要求较大资金投入,消费者在购买汽车时会对汽车产品各种属性进行仔细考察和评估。不仅如此,汽车也是研究消费者外部搜索相关文献中最为常用的产品对象之一[2]。
1研究意义与思路
11研究意义
网络搜索数据的利用价值已经得到了学术界的广泛关注。国外学者在房地产[3]、就业[4]、股票[5]、汽车和旅游[6]等众多领域都验证了谷歌搜索数据的作用。但是在中国,百度是应用最多的搜索引擎,因而用百度搜索指数研究中国的社会经济行为更符合实际情况。任乐通过计算相关系数、确定领先阶数并合成百度搜索指数,实证了北京市搜索数据与月旅游客流量之间的相关关系[7];袁庆玉等从网络关键词搜索数据与汽车销量的角度建立了理论基础框架,采用综合赋权法对关键词进行提取,预测了汽车销量[8]。 但是对国内现有研究而言,利用网络搜索数据预测用户需求仍属于一个新的研究领域,并没有形成系统的研究体系,还存在以下不足:(1)对于关键词的选取还存在争议。多数研究是直接指定关键词,或者是结合百度自动生成的关键词来提取指数,并没有考虑关键词能否代表用户实际的网络搜索行为。(2)预测模型多采用时间序列的静态回归或者是对短面板数据的建模,不利于控制不同个体间的差异,也不利于准确地反映和刻画在时间推移的过程中网络搜索数据对销售影响的动态变化。
为弥补现有研究存在的不足,本文在关键词选择和模型设定上都作出了改进,目的是验证网络搜索数据如何反映当前的汽车销量并预测未来的销量变化趋势。本文的主要工作是:提出了一套结构化的流程来提取网络搜索数据关键词,并应用于我国汽车市场的研究。该流程为网络搜索数据在其他领域的研究提供了参考。
12研究思路
本文的研究思路如下:①对汽车销量预测和网络搜索数据应用的相关研究进行梳理,总结出现有研究存在的不足;②以2007-2015年国内市场的汽车销量为研究对象,基于文本挖掘技术,提出一套结构化的流程,获得网络搜索数据的关键词,用于提取出百度搜索指数;③为避免百度搜索指数和汽车销量之间存在伪回归的可能性,对变量做了单位根检验和格兰杰因果检验;④基于108个月的长面板数据,建立百度搜索指数与汽车销量的固定效应模型,据此验证网络搜索数据如何反映当前的销量;⑤采用滚动窗口的方式预测最近12个月的汽车销量,来检验网络搜索数据的预测效力。
2文献综述
21有关汽车销量预测的相关研究
关于国内汽车销量的预测,从以往的相关研究来看,学者从定性和定量两个方面进行了相关研究。在定性方面,如:门峰等针对我国汽车产业的发展方向进行研究,认为我国汽车产业已经成为国民经济的重要支柱产业,并预测未来5~10年是我国由汽车工业大国向汽车工业强国转变的重要时期[9];王莉分析了国际金融危机给中国汽车行业带来的总体影响[10]。定量方面的研究则可以分为两个层面:一是单方法预测法(包括多元回归分析法、时间序列预测法、神经网络分析法),如:陈欢通过定性灰色预测模型的方法对汽车销量进行了预测[11],该方法能够反映复杂数据的非线性和汽车销量数据自身的规律性,但对历史数据过于依赖,历史数据越多,预测结果越可靠;郭顺生等基于时间序列ARMA模型对中国汽车的月销量数据进行预测[12];汪玉秀等综合汽车颜色、排量及版本类型3个因素,建立了马尔科夫过程的4S店汽车销量预测模型(预测绝对误差均小于5%)[13]。二是组合预测方法,如:李响等基于ARMA模型与RBF神经网络相结合的混合模型预测了天津市日汽车销量,认为组合模型相对于单一的预测模型有较高的预测精度[14];蔡宾等采用改进差分进化算法和灰色模型对几个主要汽车品牌的销量进行了预测,并对汽车销量的发展趋势作出了判断[15];李莉通过建立灰色模型和马尔科夫模型相结合的组合预测模型预测了我国小排量汽车的销量,该模型整合了GM(1,1)模型处理光滑序列的有效性和灰色马尔科夫链处理随机序列的有效性,反映出了数据序列的发展趋势[16]。
无论是传统的定性预测方法,还是定量预测都只能依赖于历史数据,但历史数据具有很强的延迟性,而且其预测的粒度较大,一般为汽车销量的年度数据。另外,与传统的预测方法相比,人工智能建模方法虽然预测精度较高,但也存在算法复杂性高,应用广泛性和对原始数据的变化趋势依赖性较强等缺陷和不足。
22基于网络搜索数据的经济类、社会类行为相关性研究目前基于网络搜索数据的经济社会类行为预测已成为各领域学者们研究的一个新的热点,并在国内外都取得了一定的研究成果。在宏观经济领域,Vosen等利用网络搜索趋势也对家庭支出做出了预测[17];Choi等研究如何利用网络搜索数据预测短期经济价值,文中的例子包括房地产、失业索赔、旅游目的地规划和消费者信心[18]。在社会领域,Ripberger等使用网络Query搜索数据对公众的注意力进行衡量,取得了良好效果[19]。国内学者张崇等揭示了网络搜索数据与居民消费价格指数(CPI)之间存在一定的相关关系和先行滞后关系,并取得了良好的预测效果[20]。董倩等发现网络搜索数据不但能够较好地预测房价指数,而且能够分析经济主体行为的趋势与规律,有一定的时效性[21]。孙毅等对相关研究进行了综述,提出基于网络搜索数据的相关性研究是典型的交叉研究,而对于网络搜索数据与经济行为之间的相关性的机理分析、关键词的选择和数据处理模型选择是需要解决的关键问题[22]。
网络搜索数据也开始用来预测汽车销量。Du等发现从谷歌搜索数据中对38个主要汽车品牌提取出来的7大趋势可以从品牌层面解释美国市场74%的汽车销量[23]。国内学者王炼等以百度搜索指数为数据基础,探讨网络搜索在我国汽车市场的预测作用,结果显示网络搜索数据对汽车销量具有显著的正向影响,研究还发现,在其他传统指标的数据无法获得时,网络搜索数据依然能够发挥重要预测作用[24]。但王炼等是对短面板数据进行建模回归,数据量较少,不利于刻画百度搜索指数与社会经济活动的动态变化,也不能确定变量之间是否存在着长期的均衡关系。
综上所述,虽然网络搜索数据可以作为传统数据的良好补充来实现对市场需求的预测,但仍有以下方面可以改进:(1)该领域的很多研究都是以谷歌趋势为数据源。虽然谷歌是全球最大的搜索引擎,但依然存在很多像中国这样的国家偏向于使用本地的搜索引擎,因而应用百度搜索指数研究我国市场需求更符合实际情况。(2)在确定获取百度搜索指数的关键词上,并没有一个系统化、统一的的方法。之前的研究普遍都是手动指定关键词,或者是利用百度自动生成的词。在本文中,我们基于文本挖掘技术,提出了一个结构化的流程来确定检索关键词,可以真实地反映出用户网络搜索的习惯。(3)以往的研究大都采用时间序列数据,或是短面板数据,不利于检验更复杂的行为模型。本文收集了国内市场最近9年的汽车月度销量数据,采用长面板数据建模,可以准确地反映和刻画在时间长期推移的过程中网络搜索数据对销售影响的动态变化。 3实证分析
31数据来源
311汽车销量
本文的汽车销量数据来源于搜狐网站汽车频道(http∥db.auto.sohu.com/cxdata/),该数据为月度更新数据。为了研究网络搜索数据与汽车销量之间的长期相关关系,我们选取的时间段为2007年1月至2015年12月,共108个月。考虑到车型数据在此期间的持续可获得性,我们将连续12个月无销量的车型排除。最终,我们收集了55款车型在此期间的国内市场月度销量数据。
312网络搜索
本文使用的网络搜索数据源于百度搜索指数。百度(baidu.com)是全球最大的中文搜索引擎,截至2015年第三季度,百度在国内的市场份额达到823%,远超过其后的“谷歌中国”(79%)、搜狗(48%)、360搜索(38%)[25]。百度搜索指数是以百度网页搜索为基础的免费海量数据分析服务,可以反映不同关键词在过去一段时间里的“用户关注度”。用户关注度以数千万网民在百度的搜索量为数据基础,以关键词为统计对象,代表了各个关键词在百度网页搜索中的搜索频次,每天更新1次。图1是网络搜索数据的1个示例。显示的是两款车型“普力马”和“福美来”在2015年用户关注度的变化趋势。可以看到,在2015年的大部分时间里,“福美来”受关注程度要高于“普力马”,在2月初,“普力马”的用户关注度大幅上升而超过“福美来”,而在6月份以后,“普力马”的受关注程度又始终低于“福美来”。
32遴选关键词
在研究汽车销量与百度搜索指数之间关系的过程中,选取恰当的网络搜索关键词是非常重要的,直接影响研究结果的可靠性。一方面,由于汽车是属性复杂并且要求较大资金投入的产品,消费者在购买汽车时会对汽车的各种属性进行仔细考察和评估。另一方面,根据CNNIC调查社区开展的搜索营销调查结果,有77%的互联网用户在购买产品前会上网搜索信息[1]。考虑到这一点,我们选取了用户活跃度最高的汽车论坛——汽车之家论坛来提取关键词。为了准确地反映消费者考虑购买汽车并上网搜索信息时所采用的搜索词,我们采取以下详细步骤来确定搜索关键词。
321确定基本词条
我们根据搜狐网站汽车频道(http:∥db.auto.sohu.com/cxdata/)所提供的车型名以及“品牌名 车型名”的组合(如:A4L以及奥迪A4L)来作为最初的基本词条。
322获取基本词条的近义词
在汽车之家论坛(http:∥club.autohome.com.cn/)该车型的论坛主题下,通过自主开发的软件程序,采用抓取网页的方式收集了论坛帖子的内容。为了更准确地确定关键词,我们用文本挖掘技术找出基本词条的同义词。具体过程为:先对抓取后的文本语料进行Jieba分词;利用深度学习的Word2vec模型对分好词的语料做训练,把词转化为向量空间模型的形式;然后结合TF-IDF算法和余弦相似度算法找出与基本词条相似的词条(对于延伸词条我们不予考虑,如A4L油耗),即近义词。对找出来的近义词继续做训练,重复多次,总共得到了452个词条。经过结构化查询语言(SQL)去重后得到了318个词条。
323选取论坛高频词条
对每一词条我们都在论坛的文本中统计出词频,并选取词频较多的词作为百度搜索指数中检索的目标关键词。对于仍有歧义的词条,我们会加上品牌名来作为目标检索关键词,如“金刚”,目标词则为“吉利金刚”。类似的例子还包括“雨燕”、“北斗星”、“高尔夫”等。
324确定最终搜索词条
对目标词在百度搜索指数中进行检索,我们选取在百度指数中排名最高的词作为关键词。对于仍不能确定排名的词,我们再选取其与销量之间在不同滞后期0~6期皮尔逊相关系数最高的词作为搜索关键词。最终得到了55款车型可各自用于百度指数检索的惟一关键词。
对每一个关键词指数我们都计算了其与销量在0~12滞后期的皮尔逊相关系数,表1是关键词的百度搜索指数与销量之间基于最大皮尔逊相关系数的滞后阶数。可以看出滞后期普遍集中在0~2期,且其中大多数滞后期都为0期。对该现象可能的解释是:尽管现实当中消费者在最终购买前可能会产生几个月的信息搜索和评价过程,但是他们搜索的数量和强度都比较小,直到在购买的前1个月其搜索数量会达到1个临界点。
4百度搜索指数与汽车销量的关系
41单位根检验
本文选择实际汽车销量(S)为因变量,以百度搜索指数(B)为自变量。为了减少异方差对检验结果带来的影响,本文数据全部对数处理(lnS,lnB),这样处理也是考虑到了销量和搜索指数的偏斜分布。进行对数处理还有一个好处是,在解释估计结果时能够以百分比变化而非绝对值的变化解释搜索的预测作用。
由于本文的样本数据均为面板数据,和时间序列数据一样,为了保证变量的平稳性和避免伪回归现象,在建立计量经济学模型之前要对变量进行单位根检验和协整检验。常用的面板数据单位根检验方法有LLC检验、PP检验、IPS检验和ADF检验等,本文采用这4种方法同时进行检验,检验结果如表2所示,由于检验原理不同,不同检验方法的结果不尽相同,本文以4种方法结果一致为准,得到汽车销量和网络搜索指数在所有情况下都为水平平稳。由于协整检验的目的是看一组非平稳序列的线性组合是否具有协整关系[26],所以本文不再对汽车销量和网络搜索数据做协整检验,而直接进入Granger因果检验。
42格兰杰因果检验
从实际生活来看,消费者会在购买汽车前上网搜索信息,那么网络搜索发生在购买汽车之前,也即百度搜索指数是汽车销量的原因,为了验证实际数据能否支撑该结论,必须进行格兰杰因果检验,检验的前提条件是数据平稳。从网络搜索到汽车购买,实际产出滞后期有0~2个月,但本研究以网络搜索数据对汽车销量的预测为目的,对同期影响不作考虑。因此本文在进行格兰杰因果检验时将滞后期设定为1~2期,结果如表3所示。 从格兰杰因果检验的结果看,在滞后1期和2期的情况下网络搜索指数与汽车销量存在着双向互动的因果关系。但格兰杰因果检验度量对汽车销量进行预测时,网络搜索数据的前期信息对均方误差MSE减少的贡献要大于另外一种情况。因此网络搜索数据对汽车销量具有预测作用。
51模型设定
采用面板数据分析网络搜索与销量关系时,首先需要用F检验来分析是采用混合回归还是面板数据,结果发现本文应该采用面板数据。在研究它们的关系时很有可能会产生遗漏相关变量的问题。在回归模型中,遗漏重要的相关变量是导致内生性的主要原因。因为一旦这个被遗漏的变量同时与因变量和目标自变量相关,那么目标自变量与随机扰动项的无关性假定就不再成立,这时如果用最小二乘估计,目标自变量的估计就是有偏的。出于此考虑,本文首先采用固定效应模型对面板数据做估计,由此来控制由于遗漏变量而产生的内生性影响,用固定效应模型控制截面变异也是面板数据模型对于截面数据模型的一大优势所在,而且Hausman检验的结果也拒绝了采用随机效应模型来建模。考虑到销量与网络搜索之间存在滞后期,在该模型当中,使用前一期搜索指数和前两期搜索指数作为自变量,以检验前1个月网络搜索和前两期搜索是否都能够预测销量。对车型i在时间t的销量有如下模型:
图2为福克斯三厢实际销量数据和预测销量数据的对比图,其中lnS为实际销量数据的对数值,lnF1、lnF2分别为提前1个月和2个月的预测。从对比图可以看出,百度搜索指数与汽车销量结合程度较好,模型预测效果很好。该结果再次体现了网络搜索数据的预测效力。图2福克斯三厢实际销量数据与预测数据对比图
按照Hyndman[28]提出的方法,本文选择平均绝对误差(MAE)作为评价预测效力的指标。平均绝对误差的单位与因变量的单位一致,易于解释。此外,本文还计算了预测值的均方根误差(RMSE),因为这一指标比平均绝对误差对异常值更加敏感,同时使用能够更加全面地评价模型的预测效力。考虑到要反映误差大小的相对值,本文又计算了不受量纲影响的平均相对误差MPE。
预测结果显示在表5当中,模型预测效果很好,加入百度搜索指数之后模型的拟合优度和预测精度都有了提高,这和格兰杰因果检验百度搜索指数是汽车销量的原因一致。对比网络搜索提前1个月和提前2个月的预测误差,可看出总体差别不大,提前1个月的百度搜索指数预测效果要略优于提前2个月的预测。表5各预测期样本外预测误差结果
误差指标MAERMSE〖〗MPE提前1个月098315790342提前2个月0986158003426结语
本文用文本挖掘技术,对汽车之家论坛帖子提取关键词,以关键词的百度搜索指数为数据基础,研究了网络搜索数据与我国汽车销量之间的关系,发现:①网络搜索数据与汽车销量之间存在着长期均衡关系,且网络搜索数据可以解释汽车销量76%的方差;②可以用提前1个月或2个月的网络搜索数据,对我国汽车销量做预测。
本文的理论意义在于:①基于文本挖掘技术,提出了结构化的流程确定搜索数据关键词,为网络搜索数据在其他领域的研究提供了参考;②对近9年的长面板数据建立模型,检验了网络搜索数据对汽车销量的预测作用。本文的实践意义在于:在不依赖历史销量数据的情况下,可以预测中国市场的汽车销量变动情况,有利于汽车企业制定相关营销策略和调整生产计划,同时也为政府部门制定相关政策提供了参考。
本文的研究局限体现在:采用固定效应模型来探索网络搜索数据对我国汽车销量的影响,在预测效果上还可以使用其他模型来完善。另一方面,本文是基于汽车之家论坛来确定网络检索的关键词,但在以后的研究上可以考虑综合如微信、微博、博客等其他社交媒体来全方位捕捉消费者的在线行为足迹。
参考文献
[1]中国互联网络信息中心.2012年中国网民消费行为调查报告[R].中国互联网络信息中心,2013.http:∥www.cnnic.cn/hlwfzyj/hlwxzbg/dzswbg/201301/t2013011638522.htm,4-4.
[2]Klein L R.Evaluating the Potential of Interactive Media through a New Lens:Search versus Experience Goods[J].Journal of Business Research,1998,41(3):195-203.
[3]Wu L,Brynjolfsson E.The Future of Prediction:How Google Searches Foreshadow Housing Prices and Sales[J].Social Science Electronic Publishing,2014.