论文部分内容阅读
2010年,全球的数据量跨入了ZB时代,根据IDC预测,至2020年全球将拥有超过35ZB的数据量,海量数据将直接或者间接的影响我们的日常工作、生活,乃至国家经济以及社会的发展[1]。大数据时代已经到来。随着大数据的快速发展,以概率统计为基础的机器学习在近年来受到工业界和学术界的极大关注,并在互联网、金融、自然语言、生物等领域获得很多重要的应用,其中贝叶斯网络在过去多年也得到了快速发展,并且成为非常重要的一类机器学习方法[2]。贝叶斯网络是描述随机变量之间因果关系图的模型,是概率理论、因果推理与图形理论的结合,也是传统的基于数据的统计方法和强调知识的人工智能方法的统一[3],其重要应用之一是随机变量之间的因果知识表示和推理。贝叶斯网络由结构和参数两部分构成,分别用于定性与定量描述变量之间的因果关系,它具有多功能性、有效性和开放性等特征,能够有效的将数据转化成知识,然后利用这些转化后的知识进行推理,来解决现实世界中的不确定性方面的问题,其有效性已在金融风险分析、信息安全、DNA分析、软件智能化、医疗诊断、系统分析和控制等许多领域得到验证。目前,对于非时序的常规数据,通常采用贝叶斯网络来挖掘其中的因果关系;而时序的常规的单时间序列一般采用格兰杰方法来挖掘其中特定的因果关系[4],但是这种方法存在诸多问题。随着大数据时代的来临,大数据技术为我们分析问题和解决问题提供了新的思路和方法。与常规数据集相比,在大数据环境下进行数据挖掘将得到更多更全面的信息。未来从大数据中发现因果关系以及在常规数据中挖掘一般因果关系将是一种趋势。为了改善传统格兰杰模型在时间序列因果关系挖掘中出现的弊端,改进并完善因果关系挖掘模型,本文提出了在大数据环境下使用二阶贝叶斯网络模型进行因果关系挖掘。该模型采用最小描述长度(Minimum Description Length,MDL)[5]原理来进行打分。通过对期货样本数据分析,并对原始时间序列进行离散化、属性约简、重构等处理后进行二阶贝叶斯网络模型训练,不仅可以挖掘节点与节点之间的因果关系而且可以发现因果关系之间的联系。本文的主要工作和主要研究成果如下:1.分析对比现有因果关系挖掘模型和贝叶斯网络结构学习方法,选择基于MDL打分原理的贝叶斯网络模型作为本文的研究方法;2.提出了一种新型的贝叶斯网络模型:二阶贝叶斯网络模型。设计出了新型模型构建的方法,并实现了相关算法。3.利用二阶贝叶斯网络推理模型对期货时间序列进行仿真实验,实验不仅得到了单个期货时间序列内部节点之间的因果关系,而且得到了多个时间序列边与边之间的因果关系。