论文部分内容阅读
随着现代科学技术的进步,世界经济迎来快速发展。金融市场作为经济增长的重要引擎,在世界经济发展中扮演着越来越重要的角色。其中,期货市场作为一种基于商品实体的市场组织形式,在稳定现货市场,规避价格风险,增加市场流动性等方面具有重要意义。对期货市场准确的分析和预测具有重要的社会经济价值。期货市场存在着来自多种数据源的海量异构数据,如包含各种技术指标的交易信息,新闻评论中包含的宏观因子,社交媒体中包含的用户倾向性等,这些数据可简单的划分为结构化的数值型数据与非结构化的文本型数据。这一数据特性为挖掘期货市场中的潜在规律及价格变动的预测带来了新的挑战,其研究具有重要的学术与应用价值。随着计算机硬件与算力的不断发展,近几年机器学习与深度学习在数据分析、计算机视觉、自然语言处理、语音识别等许多领域取得了令人瞩目的成绩。包括但不限于对海量、时间序列(如500毫秒/条的交易数据)、多源(如来自交易所、社交媒体、新闻媒体等数据源)、异构(如数值、图像、文本等数据形式)数据的准确表示和拟合。这给分析和预测具有多源异构特性的期货市场数据带来了新的可能。综合考虑期货市场的特性与已有的相关研究工作,针对期货预测任务中数据的多源异构特性与高噪声的特点提出解决方案,并在公开数据集中验证所提出方法的有效性。本文的主要研究工作如下:1.针对现有期货预测方法在海量多源异构数据下低效的知识抽取和特征表示问题,提出一种主要基于文本分析方法与改进的隐马尔科夫模型的分析框架。期货市场中包含来自多个数据源的海量异构数据,总的来说,这些数据可以分为结构化的数值型数据与非结构化的文本数据。通常来说结构化的数值型数据主要由时间序列的价格信息及其衍生的技术指标组成,主要反映期货商品的价格波动区间。而非结构化的文本型数据通常由期货市场相关的新闻事件,社交媒体中的用户评论等信息构成,主要反映影响期货价格变动的宏观因素。这些不同来源的异构数据能够反映期货市场中不同方面的信息,并会对期货市场带来不同程度的影响。因此,如何从海量的多源异构信息中挖掘影响目标期货价格变动的因子对于期货价格预测至关重要。本文以棕榈油期货为例,基于相关标的物概念构造以目标标的物为核心的关系图,进而发掘更多包含棕榈油相关行业背景信息的原始数据。然后基于扩展的情感词典从多源数据中分析目标期货的涨跌极性并构造特征向量。最后用基于混合高斯模型的隐马尔可夫模型将多源特征融合表示在统一特征空间中,挖掘多源特征与期货价格涨跌之间的关系。实验证明这种方法得到的涨跌预测结果相比于基线模型存在显著的提升。2.针对现有方法在处理多尺度,高噪声的期货数据时遇到的噪声扩散和时间属性缺失的问题,提出了一种融合注意力机制与长短时记忆网络的多层级分析框架。期货市场中存在不同时间间隔的数据,不同时间间隔下数据与市场涨跌状态的关系也存在着区别,考虑多尺度的期货数据能够更准确的描述期货市场的状态,从而得到更准确的预测结果。同时,期货市场中海量的异构,非结构化数据中存在着大量的噪声,这些噪声数据会在特征构造过程中随着网络结构不断扩散,对最终市场的分析预测任务的准确率带来显著影响。为了解决这一问题,本文提出了一种中包含评论,交易日,时间延迟片段,时间尺度四个层级的特征提取框架。在每一层级中基于注意力机制与长短时记忆网络来融合局部特征,进而得到低噪声的全局特征并用于目标期货的价格涨跌预测。实验证明这种方法得到的涨跌预测结果相比于基线模型存在显著的提升。