论文部分内容阅读
金融市场的快速发展和计算机的普及让交易数据呈现爆发式增长,这些数据中蕴含了无数有价值的信息。在此背景下,本文采用一种数据驱动的方式——非参数方法,来研究对上证指数和纳斯达克指数有影响的技术变量。文章通过混合数据下的非参数变量剔除方法,找到了影响上证指数和纳斯达克指数的指标;通过建立路径模型和完整模型,分析了各个指标对指数走势的影响效应;最后通过构建了预测模型,设计交易策略,将模型推广到实战,进一步分析了整个模型框架的优劣。主要得到以下结论: (1)通过混合数据下的非参数变量剔除方法,发现影响上证指数的技术指标为为mavg,adx,MA_10,MA_30,CMF, CMO,其中MA_10和CMO具有线性影响,其余变量具有非线性影响。对纳斯达克指数由影响的变量为mavg,adx,MA_5,MA_30,SAR,CMF,其中MA_5具有线性影响,其余变量具有非线性影响。从指标内涵看,对上证指数有线性影响的有趋势指标也有反转指标,而对纳斯达克指数有线性影响的只有一个趋势指标。结合指数走势,2011年1月到2013年7月,纳斯达克指数处于长期的上涨趋势,趋势指标对其解释效果好,而上证指数处于宽幅震荡走势,需要趋势指标和反转指标协同解释。 (2)通过构建路径模型1和完整模型,发现完整模型的G函数均值和标准差比基准模型的G函数均值和标准差都有大幅提升,说明整体上非线性变量对被解释变量有明显的解释作用。 通过构建路径模型2,观察各模型线性部分和非线性部分的变异系数。发现股票指数的波动主要是由非线性部分影响。对于纳斯达克指数,其非线性部分的变异系数的绝对值从小到大依次为CMF(剔除后波动最小),MA_30,mavg,adx,SAR(剔除后波动最大),说明当在非线性部分加入指标SAR,对指数波动减小的效应最大。当剔除CMF后由于路径模型2的非线性部分的变异系数小于完全模型,因此加入指标CMF,对指数波动增大的效应最大。对于上证指数,其非线性部分变异系数的绝对值从小到大依次为MA_10(剔除后最小),adx,CMF,MA_30(剔除后最大)。由于剔除一个非线性变量后,模型的非参数部分变异系数均变小,因此所有非线性变量的加入对都会让指数波动变大,其中MA_30对波动的增强效应最大。 通过比较完全模型与路径模型2的平均相对误差,发现指标CMF,adx和SAR对纳斯达克指数的的拟合有正向影响,而指数MA_30和mavg的影响不显著,其中指标adx影响强度最大。对于上证指数,指标CMF和adx有显著的正向影响,而MA_30和MA_10无显著影响。与纳斯达克指数不同,对上证指数的正向影响强度最大的是指标CMF。由于上证指数和纳斯达克指数的线性部分中均含有趋势变量,因此在非线性部分中趋势变量mavg,MA_30和MA_10对模型的拟合效果影响均不显著。 比较同一指标变量对不同指数的影响,发现其影响效应相同,但影响大小不同。指标CMF对上证指数的影响强度大于纳斯达克指数,说明上证指数走势更容易收到资金流量的影响。而指标adx对纳斯达克指数的影响强度大于上证指数,这是由于国外投资者对adx指标的使用比国内投资者更频繁,反应了投资者习惯对指数的影响。 (3)最后利用变量选择结果构建预测模型和交易策略。得到的交易策略的收益均跑赢相应指数收益,而策略的最大回撤均小于指数的最大回撤,体现了策略相对指数的高收益和低风险。但同时发现在走势反转的时候,模型预测效果一般,分析发现这是由于预测模型在构造时只将线性部分进行外推,而在非线性部分保留了最近一期的拟合结果,从而导致解释波动的非线性部分没有起到最大的作用。