基于贝叶斯网络的大数据因果关系

来源 :今日财富 | 被引量 : 0次 | 上传用户:gaozhl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  一、研究背景及意义
  随着大数据时代的来临,大数据技术为我们分析问题和解决问题提供了新的思路和方法。与常规数据集相比,在大数据环境下进行数据挖掘将得到更多更全面的信息。未来从大数据中发现因果关系以及在常规数据中挖掘一般因果关系将是一种趋势。为了改善传统格兰杰模型在时间序列因果关系挖掘中出现的弊端,近一步改进并完善因果关系挖掘模型,本文提出了在大数据环境下使用二阶贝叶斯网络模型进行因果关系挖掘。该模型采用最小描述长度(Minimum Description Length, MDL)原理来进行打分。通过对期货样本数据分析,并对原始时间序列进行离散化、属性约简、重构等处理后进行二阶贝叶斯网络模型训练,不仅可以挖掘节点与节点之间的因果关系而且可以发现因果关系之间的联系。
  二、时间序列数据获取与预处理
  从统计学的角度上来讲,时间序列指的是将某一个维度在不同时间点上的不同数值,按照时间的先后顺序排列而成的数据。因此,时间序列常常受到各种不确定因素的干扰而表现出一定的随机性,数据之间往往存在一定的相关性。从数学的角度上来讲,随机序列指的是由一系列随机变量组成的数组,如我们用X1,X2......Xt来表示,其中t=1, 2, 3,.....n。
  时间序列是按照时间的顺序来排列的,因此上面的表达式中t为时间的整数变量,用来表示等间隔的增长,比如第t时间点·第t月·第t个等等,我们用x,来表示,其中t=1, 2, 3,......n,这里的t表示时间的顺序。另外还有一点不同的是在时间序列中变量t既可以为正数也可以为负数,这是由于时间序列都是以当前的时间为基准,若t为负数则说明该数据发生在当前时间点之前,若t为正数则说明该数据发生在当前时间点之后,但是t的值必须为整数。
  (一)期货时间序列数据的来源
  期货交易数据都是按照时间顺序观察收集得到的期貨合约交易的价格数据,例如开盘价,收盘价,最低价,最高价等等。从期货交易软件上连续获得的期货时间序列数据称作期货时间序列数据流。时间序列数据有连续的,也有离散的。
  期货时间序列数据是一组随时间变化而观察得到的价格数据,该数据是离散的。
  我们假设
  S={(x1, y1),(x2,y2),…,(x",yn)}
  为时间序列,n表示数据点的个数,Xi表示买卖期货合约时的价格数据,其中i属于[1,n],表示买卖期货合约的时间点;给定一个维度,规定该时间序列是某种价格数据。通常情况下,使用自动的期货交易平台进行交易的时候,只需要分析众多维度中的一种期货时间序列数据即可,即固定属性,例如期货收盘价时间序列数据。
  本文采用的期货时间序列数据来自UC工网站上的开源数据,选取了其中3份期货交易时间序列。每一份时间序列拥有1000万左右的数据样本。每个样本拥有交易日期、该期货的工D、更新时间、实时价格、开盘价、收盘价、最高价、最低价等维度,其中更新时间从几秒至几分钟不等。
  (二)贝叶斯网络数据集的构建
  本文的贝叶斯网络分为一阶和二阶,两种贝叶斯网络的数据集构建方式不一样,本节主要叙述如何构建一阶贝叶斯网络的数据集。在经过离散化处理后的时间序列上随机(初始点不放回)截取5000个连续的时间序列片段,每个片段拥有5000个节点。经过上面的随机截取后获得了5000个长度为5000的时间序列,下面将对每一个时间序列进行数据集的转化。由于考虑到二阶贝叶斯网络训练时计算机的运行能力,在经过多次试验后决定选取5个节点,方便实验。
  三、基于贝叶斯网络的因果关系挖掘
  在贝叶斯网络中,对期货时间序列进行贝叶斯网络的推理,即贝叶斯网络的因果关系挖掘,其主要思想是:在给定某些证据变量取值的条件下,求解给定变量和目标变量之间的因果关系。在本文中,我们利用最小描述长度(MDL)来对单时间序列(期货)进行节点与节点之间,边与边之间的因果关系挖掘。
  按照以上算法,我们对期货的时间序列数据进行贝叶斯网络模型训练后得到如下因果关系图,整理后如下:
  从上图我们可以看到总共有5个节点,每个节点本身代表着在一阶贝叶斯网络中的一种因果关系。节点1表示在原始时间序列中第一个节点和第五个节点之间的因果关系,我们用因果关系1来表示。同理,用因果关系2和3分别表示上图中的节点2和3。从上图可以看到节点1是节点2和3的父节点,这说明因果关系1是因果关系2和3的父节点。由此可以得出以下结论:如果己知原始时间序列中节点1和节点5之间存在因果关系,那么节点2和节点3与节点5之间也存在着因果关系。
  四、结语
  采用贝叶斯网络进行模型训练对输入的数据集有着较高的要求,本文的原始数据集来自期货时间序列,该数据集中有较多的缺陷,例如数据不完整,冗余数据过多等问题,所以试验的第一步就是进行数据预处理,保证后期实现的高效和准确。另外,由于本文采用了一种全新的贝叶斯网络训练方法,需要大量的时间序列,所以需要对原始时间序列进行随机截取来产生足够多的小时间序列,保证模型的实现。最后,贝叶斯网络训练需要的是矩阵形式的数据集,而单变量的时间序列是一个数组,需要考虑如何将数组转化成符合贝叶斯网络训练的数据集。(作者单位为山西财经大学)
其他文献
林业资源的使用周期较长,同时容易受到有限性的局限,因此要想有效改善当前现状,需要从林业资源的可持续发展角度出发,充分利用林业资源,将大数据,计算机技术等现代化技术的优越性得到充分发挥。新时期下,林业经济向林下经济进行多样化经营转移,这已经是时代发展的必然趋势,及时构建以农林合作为核心的经营体系,这样做有助于将林下经济的优势得到最大限度发挥。  一、林下经济的概念阐述  林下经济是林业经济的延伸,在
期刊
随着2016年全面实现“营改增”后,房地产企业纳税发生了较大的变化,本文试图从纳税变化出发,旨在对房地产企业“营改增”后的税负、经营情况、现金流和财务管理四个方面进行分析,最后为企业经营提供建议。  一、问题的提出  增值税制度的扩围改革阶段,自上海2012年起实施交通运输业和部分现代服务业的增值税扩围改革试点后,2014年6月,全国的“3+7”个行业也进行了营改增试点,最后,2016年5月,将剩
期刊
中国传统酒礼和现代酒礼的对比体现出尊卑长幼之序和和谐和睦的特点。现代饮酒礼仪对传统酒礼既有继承与发扬,也有摈弃与改进。中西方现当代饮酒礼仪方面的不同主要体现在斟酒、敬酒和饮酒的过程之中,这是由于文化背景、思维模式、社会政治等因素长期作用的结果。  酒,在人类文化的历史长河中,不仅仅是一种客观的物质存在,更是一种文化象征。不论是在东方文明还是西方文明中,饮酒礼仪与饮酒文化都有其深远的历史文化渊源。本
期刊
在当前,完成机械化以及信息化建设,实现我国军事现代化跨越式的发展,是我国的重大历史任务。而我国军事形成跨越式发展不仅是军事改革中的重点,更是其中的薄弱环节,因此,想要实现我国军事的现代化,就需要向着跨越式的道路发展。本文将对此展开研究分析,着重阐述我国国防的经济建设向跨越式道路发展的必然性以及发展的有利条件,并对我国国防经济建设的跨越式發展提出一些浅显的意见,为相关工作者提供一些可参考依据。  一
期刊
国有企业法人治理结构是国家治理在国有企业的重要延展和微观表现,对于确保国有企业决策的民主化、科学化,防范经济运行风险,激发国有企业市场竞争力和发展活力具有重要意义。当前,国有企业法人治理结构,可以说呈现出整体上在集团层面比较规范,而在子公司层面还相对滞后和存在一些问题的总体特征,本文主要是深入剖析国企子公司法人治理结构中存在问题的基础上,有针对性进行研究并提出完善对策以供参考。  一、法人治理结构
期刊
互联网金融是基于互联网技术的一种新型商业活动,是从传统金融体系上衍生而来。由于网络的虚拟性,以及金融体系所具有的复杂性,这就使得互联网金融相较于传统金融风险更高,不可控性因素较强。金融风险的存在不仅会极大地危害一个国家的金融体系,还有可能给整个金融市场带去影响。为此,对互联网金融的风险及监管策略进行研究,有助于我国金融市场的稳定。  一、中国互联网金融的风险分析  (一)技术风险  随着计算机网络
期刊
一、PPP概念与意义  PPP是Public-Private Partnership的英文首字母缩写,意即政府和社会资本合作,PPP是以市场竞争的方式提供服务,主要集中在纯公共领域、准公共领域。PPP项目通常模式是由社会资本承担设计、建设、运营、维护基础设施的大部分工作,并通过使用者付费及必要的政府付费获得合理回报;目前我国正在实施新型城镇化发展,立足国内,借鉴国际成功经验,推广运用政府和社会资本
期刊
在互联网+時代,传统产业的发展需要依靠先进的科学技术,互联网+技术应用领域比较广泛,并且取得一定的效果。在互联网技术发展的过程中,信息产业得到快速发展,现在信息产业与传统产业进行融合,在一定程度上促进传统产业的快速发展,为传统产业的发展提供了技术支持。本论文主要从“互联网+”视域下信息化的内涵演变、“互联网+”时代传统产业信息化的融合发展之路、“互联网+”时代信息化的发展趋势及社会影响阐述“互联网
期刊
随着大数据时代的到来,爆炸性增长的数据资源成为电商相较于传统销售业极具优势与价值的商业资源。电商企业利用电子平台几乎掌握了消费者全部的数据信息,如注册用户浏览过的网页、购买消费记录,用户对商品的评价等等,从而掌握消费者的消费偏好、消费习惯甚至经济条件,可以说大数据在一定程度上成为企业未来发展的核心竞争力。  一、大数据背景下的电商发展  (一)大数据的时代背景  所谓大数据,是指所涉及的数据资料量
期刊
近几年,我国啤酒进口呈现出爆发式增长,市场表现颇为强劲,对国内啤酒行业的发展造成了很大的冲击,这使得国内啤酒行业的生存环境变得更加复杂和艰难,对未来啤酒产业的发展提出了严峻的考验,而如何提升自身的竞争实力成为摆在中国啤酒企业面前重要的问题。通过了解我国啤酒进口的市场现状,分析进口啤酒对国内啤酒的影响,提出我国啤酒企业应对进口啤酒竞争的对策,为企业未来更好的发展提供参考与借鉴。  一、近几年我国啤酒
期刊