论文部分内容阅读
金融产品的价格预测一直是众多研究者感兴趣的研究课题之一。然而由于受到诸如宏观调控、经济市场运行和投资者预期等多种因素的影响,金融市场上的数据通常较为复杂,具有非线性、时变和不确定等特征,时至今日这对研究者们来说仍然是一项具有挑战性的工作。股指期货是以股票价格指数为标的物的期货品种,同股票市场相比,股指期货的价格预测更为复杂。金融产品的价格预测方法通常可以分为两类。一类是基本面分析法,它运用价值规律,对影响金融产品价格的某些因素进行分析以实现对未来价格趋势的预测。另一类是技术分析法,这类方法将价格预测视为模式识别问题。在这种框架下,首先用历史价格和某些指标建立预测模型,这样对于新数据便可以根据模型对价格做出预测。近年来,随着机器学习和人工智能的兴起,逐渐有学者尝试将机器学习的方法应用到金融产品的价格预测中。支持向量机是一种二类分类模型,由Cortes和Vapnik提出。它的基本模型是定义在样本空间上间隔最大的线性分类器。引入核方法后在非线性分类问题中也取得了较好的效果,是一类广泛使用的机器学习算法。本文基于支持向量机对我国股指期货市场数据建模,并在测试集上验证模型的预测精度。
核函数决定了支持向量机与核方法的最终性能,成为支持向量机的最大变数。但遗憾的是,对于具体问题如何选择合适的核函数仍然是一个未决问题。在实际应用中,往往依赖经验与领域知识选择核函数,但核函数选择的有效性需要通过实验验证。这种办法有较大的局限性,特别是当样本特征含有异构信息或样本规模很大、或数据在高维特征空间分布不平坦时,采用单核进行映射的方式对所有样本进行处理并不合理,多核学习是近年来处理这个问题的一个研究方向。本文使用多个核函数并通过学习获得其最优组合作为最终的核函数来代替单个核函数,建立合成核支持向量机模型。
本文选用的是沪深300股指期货主力合约的行情数据,分为两个时间段。第一段数据从2010年4月16日到2018年5月1日,作为训练集,用于参数寻优和建立模型,第二段数据从2018年5月1日至2019年11月4日,作为测试集,用于测试模型的精确度。输入特征的选取对支持向量机模型的性能有很大影响。所选择的特征指标应与预测目标密切相关,同时还应注意到较多的特征会增加模型的复杂度,增大计算开销,并可能导致过拟合。本文选取开盘价、最高价、最低价、收盘价、成交量、成交额、持仓量这七个基本的行情指标作为输入特征。本文考虑的是支持向量机分类问题,因此当收盘价上涨或持平时,输出指标为?1,反之为?1。参数优化是本文的一个研究重点,参数的配置不同,学得的模型性能往往有显著差别,如果参数优化得不当,甚至可能会使合成核函数的性能低于单个核函数,合成核函数也就失去了意义。对于合成核支持向量机模型,本文采用粒子群算法进行参数寻优,以寻优得到的最优参数建立的合成核支持向量机模型在测试集上取得了比传统的单核支持向量机模型更高的预测精度。因此,本文达到了预期效果,丰富了对于股指期货价格预测的方法。
核函数决定了支持向量机与核方法的最终性能,成为支持向量机的最大变数。但遗憾的是,对于具体问题如何选择合适的核函数仍然是一个未决问题。在实际应用中,往往依赖经验与领域知识选择核函数,但核函数选择的有效性需要通过实验验证。这种办法有较大的局限性,特别是当样本特征含有异构信息或样本规模很大、或数据在高维特征空间分布不平坦时,采用单核进行映射的方式对所有样本进行处理并不合理,多核学习是近年来处理这个问题的一个研究方向。本文使用多个核函数并通过学习获得其最优组合作为最终的核函数来代替单个核函数,建立合成核支持向量机模型。
本文选用的是沪深300股指期货主力合约的行情数据,分为两个时间段。第一段数据从2010年4月16日到2018年5月1日,作为训练集,用于参数寻优和建立模型,第二段数据从2018年5月1日至2019年11月4日,作为测试集,用于测试模型的精确度。输入特征的选取对支持向量机模型的性能有很大影响。所选择的特征指标应与预测目标密切相关,同时还应注意到较多的特征会增加模型的复杂度,增大计算开销,并可能导致过拟合。本文选取开盘价、最高价、最低价、收盘价、成交量、成交额、持仓量这七个基本的行情指标作为输入特征。本文考虑的是支持向量机分类问题,因此当收盘价上涨或持平时,输出指标为?1,反之为?1。参数优化是本文的一个研究重点,参数的配置不同,学得的模型性能往往有显著差别,如果参数优化得不当,甚至可能会使合成核函数的性能低于单个核函数,合成核函数也就失去了意义。对于合成核支持向量机模型,本文采用粒子群算法进行参数寻优,以寻优得到的最优参数建立的合成核支持向量机模型在测试集上取得了比传统的单核支持向量机模型更高的预测精度。因此,本文达到了预期效果,丰富了对于股指期货价格预测的方法。