基于多源信息融合的组合预测模型及其应用

来源 :中小企业管理与科技·下旬刊 | 被引量 : 0次 | 上传用户:xgf217
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  【摘  要】“互联网+大数据”背景下,搜索引擎为预测提供了多源瞬时信息。现有的组合预测模型通常是建立在历史数据的基础上,无法体现搜索指数等多源信息融合的特点。因此,论文为提高预测的精度,充分利用多源信息,根据信息来源的不同,从不同视角构建了3种单项预测模型。最后,为降低预测的风险,从合作对策的角度出发,构建组合预测模型。实证结果表明,论文提出的模型从预测稳定性和精度方面都有显著提高。
  【Abstract】In the context of "internet + big data", search engines can provide multi-source instantaneous information for prediction. Current combined prediction model is usually constructed based on historical data, which cannot reflect the characteristics of multi-source information fusion such as internet search index. Therefore, in order to improve the prediction accuracy and make full use of multi-source information, this paper constructs three single prediction models from different perspectives according to different information sources. Finally, in order to reduce the risk of prediction, a combined prediction model is constructed from the perspective of cooperative game. The empirical results show that the prediction stability and accuracy of the proposed model are improved significantly.
  【关键词】多源信息;搜索指数;组合预测;合作对策
  【Keywords】multi-source information; search index; combined prediction; cooperative game
  【中图分类号】O211.67;TP277                                             【文献标志码】A                                                 【文章编号】1673-1069(2021)08-0078-04
  1 引言
  在“互联网+”大数据时代,大数据预测作为大数据核心应用之一,主要依赖大数据的来源[1]。例如,新冠肺炎出现以来,在短短时间内迅速传播。预测病情的蔓延程度成为公共卫生组织和专家学者们做好预防的核心工作。研究人员利用谷歌搜索引擎和百度搜索引擎,搜集了与武汉新冠肺炎相关关键词的大量数据,并根据大数据和智能预测方法预测疫情的拐点,为政府和相关管理部门制定管控措施提供了科学依据。事实上,在2009年美国甲型H1N1流感病毒出现前,谷歌的数据分析师就在《自然》杂志上发表论文[2],正是根据人们在谷歌上的搜索记录,成功预测了病情的蔓延程度以及流感出现的区域。可见大数据预测能够充分利用网络搜索获得的多源信息对预测目标进行准确的预测。
  近年来,随着计算机网络技术的广泛和深入发展,移动互联网、云计算和智能手机等不同传感器的广泛使用,为人们提供了海量的数据。搜索引擎使用的频繁,为人们了解信息提供了新的渠道。在复杂系统预测中,预测信息往往呈现多源化,可以从不同视角解释预测目标,它们并不是独立的,而是存在交互影响的,在预测过程中可以通过不同来源信息的互补来提高预测的精度。如何有效地融合多源信息成为专家学者们研究的热点课题之一。信息融合是将获取的各种信息进行归纳整合,以获取更精确、更适用的信息的集成技术[3]。信息融合可以将不同信息源的数据进行集成,能够使信息之间起到互相补充的作用,因此被广泛地应用到军事、工业工程以及医疗等领域。随着“互联网+”时代的来临,专家學者们发现,预测的结果不仅受到历史数据等相关结构化数据的影响,基于网络搜索的非结构化数据也会在某种趋势上影响预测的精度。网络搜索的非结构化数据可以从人类行为学视角提供相关信息,这些信息为学者们研究预测问题提供了一个新的思路,受到了广泛的关注。
  基于网络搜索的预测模型与传统预测方法相比要更为灵活与及时。Yu L. A.等基于谷歌趋势的在线大数据驱动预测方法对全球石油消费量进行实证预测,结果表明,利用网络搜索的预测结果要在方向精度和误差上都明显优于没有使用谷歌趋势的传统预测方法[4]。Ling Tang等利用网络搜索多种影响原油价格因素的数据从多个时间尺度上预测了布伦特原油价格的波动情况,实证表明基于网络搜索数据预测模型可以改进预测的精度[5]。Wang J.等考虑原油市场及相关事件的网络关注度,利用谷歌搜索数据并结合机器学习方法对原油价格进行多尺度预测,结果表明互联网搜索是一种量化投资者关注度的实用方法,有助于预测短期原油市场的价格波动[6]。Jingjing Li等考虑到网络搜索关键词数据时只使用一种语言,提出了一种全球视角下的新型多语言驱动预测方法对原油价格进行预测,实践表明新的模型具有更强的鲁棒性[7]。Vosen等从人类的消费行为学视角,将谷歌搜索消费关键词数据用于私人消费预测中,提高了预测的精度[8]。董倩等以百度搜索指数为基础,对二手房与新房的价格进行预测,发现网络搜索指数对预测房价的趋势起到重要作用[9]。   基于以上分析,本文以碳价格预测为例,考虑到与碳价格的历史数据以及相关影响因素指标等多源数据,首先构建适合的单项预测模型,其次将单项预测模型的预测结果看作合作对策中的方案,通过Shapley值计算权重系数,构建基于多源信息融合的组合预测模型,得到组合预测值,并对预测的结果进行有效性检验。
  2 基于多源信息融合的组合预测模型
  2.1 模型构建的基本思路
  本文首先通过数据库和网络搜集到与预测目标相关的结构化数据和非结构化数据,其次根据不同的数据源构建相应的单项预测方法,最后融合各单项预测方法的长处,构建基于多源信息融合的组合预测模型,建模思路如图1所示。
  2.2 基于多源信息融合组合预测模型构建的基本过程
  2.2.1 基于网络搜索指数流形学习的最小二乘支持向量回归(LSSVR)预测模型
  收集与预测目标相关的非结构化数据,考虑到数据的冗余性,首先利用流形学习方法对数据进行降维处理,继而构建LSSVR预测模型,给定一组训练样本{zt,yt},其中zt=(zt1,zt2,…,ztd,yt-1)为数据预处理后得到的序列即输入变量,yt为第t时刻历史数据实际值序列即输出变量。基于流形学习的LSSVR预测模型可构建如下:
  minJ(ω,b,ζ)=||ω||2+ζ                    (1)
  s.t.ω·?覬(xt)+b+ζt=yt,t=1,2,…,N
  其中,b是偏置,ζt是容忍误差,C为惩罚参数,为了对式(1)进行求解,引入拉格朗日乘子,此时式(1)转化为:
  L(ω,b,ζ,λ)=J(ω,b,ζ)-λt{[ω·?覬(xt)+b]+ζt-yt }
  =||ω||2+ζ-λt{[ω·?覬(xt)+b]+ζt-yt }     (2)
  对式(2)中未知参数进行求偏导,可得:
  =0,=0,=0,=0                 (3)
  从而可得LSSVR预测模型如下:
  yt=λt ·K(x,xt)+b,t=1,2,…,N                 (4)
  其中,K(x,xt)=?覬(x)·?覬(xt)為核函数,根据式(4)可得基于流行学习和非结构化数据的时间序列预测值1t。
  2.2.2 基于相关影响因素的偏最小二乘(PLS)预测模型
  针对预测目标相关影响因素的数据源,由于系统的复杂性,影响预测对象的因素一般较多,为了消除不同影响因素变量之间的多重共线性,本文采用PLS回归预测模型对预测目标时间序列进行预测。
  假设因变量为实际值时间序列,记作Y=(y1,y1,…,yN)T,自变量为预测目标相关的影响因素所形成的结构化数据,记作X=[X1,X2,…,Xq],则相应的单因变量PLS回归预测模型可建立如下:
  Y=Xβ+                           (5)
  其中,β为所有解释变量的回归系数,为随机误差项,服从正态分布。
  在PLS回归预测模型的实践过程中,解释变量和被解释变量的原数据都要先进行标准化处理,继而在解释变量中提取成分,必须要最大程度包括X中的变异信息,并且要对被解释变量的解释能力要好,接着判断是否达到建模的标准,如果达到则模型构建完成,否则,继续在剩余信息中提取其他成分,直到达到模型的终止准则,可通过交互验证确定PLS回归预测模型中回归的成分数量。根据式(5)可得基于预测目标影响因素的PLS回归预测值为2t。
  2.2.3 基于变模式分解(VMD)多尺度分解的广义回归神经网络(GRNN)预测模型
  考虑到预测对象历史数据可能是不平稳、非线性的,为提高预测的精度,首先利用VMD分解算法对原始时间序列进行多尺度分解,VMD分解算法过程如下。
  变模式分解过程:
  ① 初始化xt=(t=1,2,…,T)
  ②   set{ },{ },1 ←0
  ③      迭代
  ④      n←n+1
  ⑤      for  k=1到N  do
  ⑥         对全部的v≥0更新k
  ⑦       g←
  ⑧          继续更新vk:
  ⑨         v←
  ⑩          end for
  {11}      for v≥0
  {12}       n+1(v)←n(v) +τ((v)- (v))
  {13}        直到g达到收敛:<ε   {14}       得g,k=1,2,…,M
  根据VMD分解得到一组平滑的时间序列后,再利用GRNN对每一列序列进行预测,最后将所有的序列简单集成得到最后的多尺度分解预测值。GRNN的预测过程如下:
  假设预测对象的历史数据利用VMD分解后得到第k个模态,现根据GRNN模型对此模态进行预测,即将第k个模态作为输入变量Gt(k)=(gt-3(k),gt-2(k),gt-1(k)),其输出变量为(gt(k))T ,t=1,2,…,N。GRNN中,各层如下。
  ①输入层。
  在输入层中,神经元的数量与输入变量的维数是相同的,此时将输入变量传到下一层。
  ②模式层。
  在模式层中,神经元的数量与设定训练样本的维度相同,此时,第t个神经元的输出为:
  pt(k)=e,(t=1,2,…,N)    (6)
  ③求和层。
  求和层传递函数分别为算术求和与加权求和:
  Ss=pt (k)                       (7)
  Swt=wt (k)pt(k),t=1,2,…,N                     (8)
  ④输出层。
  在输出层中,神经元的数量与训练集中输出变量的维度要相等,此时,第个k模态的预测结果为:
  yt(k)=,t=1,2,…,N                         (9)
  类似地,对每个模态的预测值进行简单集成,可得基于多尺度分解的GRNN预测值3t:
  3t=yt(k),t=1,2,…,N                       (10)
  2.2.4 Shapley值与多源信息融合组合预测模型
  组合预测模型可以有效地融合各单项预测模型的优势,达到降低预测误差,同时还能够分担预测的风险。组合的实质是将各单项预测的信息进行有效的信息集成,其核心问题就是求各单项模型的权重系数,本文从博弈论视角出发,将各单项模型当成合作对策中的备选方案,根据各单项预测方法对组合预测模型的贡献度,计算Shapley值,具体计算过程如图2所示。
  根据上述3种单项预测方法得到的单项预测值以及Shapley值计算的各方法的权重系数,可得组合预测值为:
  t=wiit,t=1,2,…,m                   (11)
  3 实例仿真与结果分析
  3.1 数据来源与处理
  本文选取了深圳市碳市场2015/01/05到2018/06/29共844個碳价格历史数据作为样本,为预防在预测的过程中出现过拟合问题,我们将样本分成训练样本(2015/1/5-2017/12/29)、验证样本(2018/1/2-2018/2/28)与测试样本(2018/3/1-2018/6/29)。数据来源于中国碳交易网。同时我们还在百度指数上收集了与碳价格相关非结构化数据,本文选取了碳汇、碳交易、碳排放、低碳经济、减排和、低碳生活、碳足迹、碳关税、碳中和以及减排和10个关键词来反映人们对碳价格的关注程度,最后我们还选取了与碳价格相关的沪深300指收盘价、天然气价格、欧盟碳排放配额结算价、WTI原油价格、煤炭价格、WTI原油价格和核证减排量结算价作为碳价格其他相关影响因素指标,并对数据进行预处理,统一样本维度。
  此时,我们可得基于多源信息融合的组合预测模型结果如图3所示。
  3.2 预测的评价指标
  为验证本文所提模型的有效性,计算误差平方和(SSE)和平均绝对百分比误差(MAPE)来度量预测的总体误差与相对误差,计算公式如下:
  SSE=(yt-t)2                        (12)
  MAPE=                         (13)
  同时,我们为了验证所提模型的稳定性,引入预测有效度,计算了预测精度的均值和方差,该指标能够从预测误差的分布角度来评价预测的稳定性,第i种方法二阶预测有效度公式如下:
  Mi=E(ai)(1-σ(ai))                        (14)
  其中,E(ai)为第i种预测方法预测精度的期望,σ(ai)表示第i种预测方法预测精度的标准差,可计算如下:
  E(ai)=Qt·ait,σ(ai)=Qt(ait-E(ai))2,ait=1-(yt-it)/yt
  一般地,Qt先验信息是未知的,通常取Qt=1/T。   根据式(12)~(14)计算各预测方法的预测如表1所示。
  通过表1来比较模型3种单项预测模型与本文提出的组合预测模型对应的误差评价指标,结果表明本文模型的3种误差评价指标无论从总体误差、相对误差,还是预测有效度表现都是最好的。从实践证明,引入多源信息对提高预测的精度是有积极作用的,因而引入多源信息融合的组合预测模型是有必要的。
  4 结论
  本文根据信息来源的不同,为充分利用这些信息,从多个角度构建预测方法,同时为分散预测的风险,以及将不同单项预测方法根据其自身特点和预测效果,利用Shapley值计算各单项方法的权重,进而得到最终的组合预测结果,实践结果表明,本文所提的方法,无论从精确性还是稳定性都要高于单项预测方法。在将来的研究中,我们还将继續考虑网络舆情对预测对象的影响,使得模型适用性更强。
  【参考文献】
  【1】吕本富,陈健.大数据预测研究及相关问题[J].科技促进发,2014(1):60-65.
  【2】Ginsberg J.Detecting influenza epidemics using search engine query data[J].Nature,2009,457(7232):1012.
  【3】王耀南,李树涛.多传感器信息融合及其应用综述[J].控制与决策,2001,16(05):518-522.
  【4】Yu L. A., Zhao Y. Q., Tang L., Yang Z. B., Online big data-driven oil consumption forecasting with Google trends[J]. International Journal of Forecasting,2019,35(1):213-223.
  【5】Ling Tang et al. A multi-scale method for forecasting oil price with multi-factor search engine data[J].Applied Energy,2020,257.
  【6】Wang J., Athanasopoulos G. Hyndman R. J., Wang S. Y., Crude oil price forecasting based on internet concern using an extreme learning machine[J].International Journal of Forecasting,2018,34(4):665-677.
  【7】Jingjing Li and Ling Tang and Shouyang Wang. Forecasting crude oil price with multilingual search engine data[J].Physica A: Statistical Mechanics and its Applications,2020,551.
  【8】Vosen S., Schmidt T., Forecasting private consumption: survey-based indicators vs. Google trends[J].Journal of Forecasting,2011,30(6):565-578.
  【9】董倩,孙娜娜,李伟.基于网络搜索数据的房地产价格预测[J].统计研究,2014,31(10):81-88.
其他文献
确保环境监测数据的质量,是生态环境监测机构生存和发展的基础。目前,环境监测机构在数据质量方面还存在着认识上的问题。尤其是社会环境监测机构,在发展初期还存在着监测用房短缺、时间记录混乱、仪器设备不足等问题,都会直接或间接影响监测数据的质量。论文在正确认识存在问题的同时,从实验室布局、仪器设备配置、样品现场测试及采样、运输及流转、检验分析等环节提出了质量控制的要点和细节,以保证环境监测全过程处于质量控
【摘 要】卷烟物流设备是行业商业企业的重要资产,是保障企业生产经营的基础条件。做好物流设备管理,延长设备使用寿命,改善设备运行质量,无疑对提高卷烟物流配送中心运营效率和保障能力、降低物流运行成本具有重要意义。  【Abstract】Cigarette logistics equipment is an important asset of commercial enterprises in the
【摘 要】在人工智能快速发展的时代,人工智能已经逐渐应用到人力资源管理的诸多方面。论文以知网为基础,进行人工智能视角下人力资源管理研究文献检索,通过对研究文献进行综述,分析人工智能视角下人力资源管理研究现状,进而对人工智能视角下人力资源管理未来研究进行展望,以期让更多人了解人工智能视角下人力资源管理当前的研究动态,期望未来的人工智能视角下人力资源管理的研究成果更加丰富。  【Abstract】In
【摘 要】在大力加强党的建设的新时代背景下,思政工作对民营企业的长足发展起着巨大的推动作用。民营企业党组织是党在企业中的战斗堡垒,在民营企业发展中发挥核心引领作用,是推动企业高速前行的“红色引擎”。因此,企业要不断加强党建思政工作,抓好企业党组织书记这个关键,推动基层党建创新,充分发挥基层党组织的战斗力,聚焦建设先进企业文化,团结凝聚服务员工,维护企业和谐稳定,促进民营企业各项事业健康发展。  【
【摘 要】针对船舶行业成本控制的现状,论文提出将挣值法与目标成本法相结合来解决船舶制造行业的成本控制问题,帮助管理者分析项目成本和工期的变动情况,并给予相应的反馈信息,支持决策,通过预测未完成任务情况对项目整体成本进行对比分析,及时调整偏差,提升成本控制的及时性和全面性。  【Abstract】According to the current status of cost control in t
随着煤炭生产量与消费量的迅速增长,煤炭企业在污染控制方面面临着很大的挑战.与此同时,我国对于环境绩效评价并没有统一的衡量标准,如何进行环境绩效评价,成为污染严重企业
【摘 要】近年来,科技进步和时代发展为我国石油化工领域的创新改革带来重大机遇,而石油化工作为我国经济发展中的重要组成部分,与生物、物理、化学等多种学科相融合,是一种具有综合性的行业类型。特别是近年来,随着科学技术的成熟发展,越来越多的化工产品、设备随之增加,使得石油化工成为社会发展中的必需品。但化工生产过程中的风险因素较多。在进行生产和控制的过程中,仍然需要进行风险规避,并将安全放在首位。鉴于此,
【摘 要】随着经济的快速发展,我国的信息技术已经得到了广泛应用,特别是在5G技术的不断普及下,各行各业都开始针对自身的管理工作进行信息化创新,而建筑工程中也在积极普及信息化技术的应用。可以说,通过信息化的应用,在建筑工程的管理工作中可以较好地提高管理效率,有利于建筑工程质量的提高。基于此,论文着重探讨了信息化在建筑工程管理中的应用,并分析具体的使用对策,希望能够为相关人员提供参考。  【Abstr
【摘 要】氯化氢检测过程中会出现吸附效率不达标的情况。论文结合日常工作经验和遇到的问题,研究了离子色谱法测定环境空气和废气中氯化氢吸附效率的影响因素,并以实际操作为基础,提出提高氯化氢吸附效率的意见和建议,为氯化氢检测结果的准确性和合理性提供保障。  【Abstract】In the determination process of hydrogen chloride, the adsorptio
【摘 要】对于不动产登记工作来讲,最主要的目的是保证不动产权利人的切身利益不会受到侵犯,并且为不动产交易提供更加可靠的保障。对我国当前的房地产行业发展情况进行分析之后,发现在房地产不动产登记过程中相关制度的落实与机制的保障作用并没有得到真正发挥,所以不动产登记工作对房地产价格的稳定与保障作用也没有得到真正落实。正是在这一背景下,需要对当前我国不动产登记工作在房地产经济发展过程中所产生的影响以及建议