基于超高频数据的计量建模方法及市场交易行为量化研究

来源 :东北财经大学 | 被引量 : 2次 | 上传用户:revire
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术的飞速发展及高速互联网的日益普及,使得各行各业数据样本的收集、记录、存储和分析成本显著降低,其存储方式从最初的手工记录发展到智能化数据库存储,样本来源从传统的PC端转向手机移动端。这些技术上的创新使个人不知不觉地加入到了大数据时代,每个人既贡献着自身的数据信息,也享受着大数据带来的便捷和高效。高频数据作为金融大数据的一种,记录了交易市场中的日内交易信息。具体而言,这类数据又可以细分为高频数据和超高频数据,高频数据是指日内采样频率为小时,分钟或者秒的交易数据,这类数据还是属于等时间间隔抽样数据,只是将抽样频率提高到了日内水平。数据样本会随着抽样频率的提高,获得更多的相关信息,但同时也会更多地受到市场噪音的影响。而超高频数据则是指交易过程中的全样本数据,即实时采集的逐笔交易数据。超高频数据样本属于非传统数据结构,它是以事件本身作为数据的唯一标识,而传统时间序列中往往以事件发生的时间点作为标识。相对低频数据而言,高频数据除了具有一般意义下的ARCH特征,如厚尾性,非正态性及聚集性等特征外,还具有日内周期性效应、离散价格取值及高度相关等高频特征。如何对高频数据及超高频数据进行处理分析一直都是金融计量理论和实证研究的前沿方向。中国股票市场作为转轨经济时期发展起来的新兴证券市场,与其他国际成熟市场相比,其交易制度和交易品种尚不完善,股票价格受政策消息波动明显,投机行为严重,具有特殊的市场结构特征。同时,随着我国证券交易所逐步推出了实时交易数据(Level-2行情),包括日内逐笔成交记录、十档委托行情、买卖队列等信息,这为我国股票市场微观结构的定量研究提供了数据基础。因而,如何通过高频数据计量建模揭示我国市场微观结构和交易行为特征,进而设计出合理的股票交易机制并实施有效监督,这对降低我国股票市场信息不对称带来的交易风险和推动市场的健康发展具有十分重要的理论和现实意义。本文以超高频数据为研究对象,分别从理论方法和实证研究两个角度进行论述。从建模角度来看,重点关注超高频数据下持续期模型的参数估计方法及日内效应问题。同时以市场微观结构理论为实证理论基础,结合超高频持续期相关模型实证研究了中国股票市场日内交易行为的非线性特征。本文的主要研究内容及结论如下:(1)引入计算机领域的聚类算法SOM,优化持续期模型下的日内效应调整问题日内效应在金融高频数据研究中已被广泛证实,是一种日内周期性运动的动态效应,它影响了以微观金融指标为参数的计量模型的准确估计。常用日内效应调整方法从先验的周期性结构变点出发,即在建立参数估计方程之前已经明确定义了日内调整的固定时间周期,例如以单位小时交易时间,或者等间隔的分钟交易时间(5分钟,15分钟,30分钟,60分钟等)为周期的节点,建立与日内周期结构对应的加权平均或者平滑函数。但这类方法没有很好地从数据角度出发挖掘日内结构自身的动态性,往往导致高频时间序列数据的日内效应调整效果不尽如人意。基于金融超高频持续期数据,该部分内容首先论述日内效应调整的重要性,然后引入自适应映射(SOM)的方法对日内效应进行调整。SOM是一种基于神经网络学习的特征提取方法,能够动态识别高维数据中的结构特征,克服了静态调整方法的不足。最后通过建立基于自回归条件持续期模型(ACD)的蒙特卡罗模拟实验,比较了三种日内效应调整方法的效果。模拟结果表明SOM方法在日内效应调整中更为有效和稳定,特别适合大数据条件下的周期性结构分析。(2)比较分析持续期模型不同随机扰动项和参数估计方法的性能效果已有应用不同分布条件下的ACD模型比较GLS与(Q) MLE等不同估计方法之间性能的学术成果尚不多见。在条件均值方程正确设定的前提下,如何选择一个合适的参数估计方法及扰动项分布是值得深入分析的问题。该部分内容针对不同随机扰动项分布下的ACD模型,比较分析了线性广义最小二乘和不同目标函数下(拟)极大似然参数估计的效果。ACD模型是以随机扰动项分布的危险率函数作为超高频数据集分布的特征描述,通过蒙特卡洛模拟实验,该部分讨论了Exp, Weibull, Burr,广义Gamma分布函数的适用性及GLS与(Q) MLE估计方法下参数估计的统计性质与估计效果。模拟实验结果表明,以Burr分布作为极大似然目标函数的(Q) MLE估计在不同分布特征下的数据集中表现最为稳定,而简单易行的GLS方法在大样本的情况下也能得到较为准确的估计结果。最后通过实例比较验证了ACD(1,1)模型在上述方法下的预测效果。(3)通过状态转换机制下的持续期模型研究了中国股票市场微观结构中的非线性交易行为特征当前高频时间序列的理论研究日趋成熟,这为动态刻画市场微观特征,研究交易者交易行为,探究信息传播机制提供了可行的建模思路。本文旨在以非线性自回归条件持续模型为基础,从高频数据视角实证研究中国股票市场日内异质交易行为的非线性特征及其识别问题。该部分内容的主要贡献如下:首先,基于已有文献的研究,将ACD模型中的随机扰动项Weibull分布拓展为三状态下Logistic转换函数的混合分布类型,并以交易强度作为状态开关变量用以区分三类交易者类型,从而构造状态转移机制下的非线性ACD模型。其次,以信息模型理论为基础,通过状态转移机制下的ACD模型实证建模分析了中国股票市场相关数据,以2014年11月沪港通开启作为信息事件,并以该期间的龙头行业券商股作为数据样本,根据模型参数估计结果得到当前市场三类不同交易者所占比例,各状态之间的转移速率,日内分时交易状况,不同交易者买卖行为特征,并对其成因进行深入剖析。最后,重点分析了沪港通开启前后不同交易者交易策略的变化趋势及其与股价变动相关关系,以此探究我国股票市场相关机制的不足与改进措施。综上所述,本文紧紧围绕超高频数据持续期模型展开研究。首先,对超高频数据下的日内周期性效应问题进行了深入探讨,研究方法和研究结果不仅有助于理解高频时间序列模型与传统时间序列模型的区别,亦能更好揭示高频时间序列结构的特征。其次,对持续期模型理论进行了全面总结归纳,并且对其参数估计方法进行了科学系统的比较分析,从而为持续期模型的应用提供了可靠的参考依据。最后,首次从状态转换机制下的非线性持续期模型视角对中国股票市场日内交易行为进行了实证研究,该研究对完善我国股票市场结构和交易机制有着重要指导作用,在一定程度上推动了我国股票市场的合理健康发展。所以本文的研究具有重要的理论价值和实际意义。
其他文献
随着单个图数据规模的扩大以及应用领域的扩展,大规模单图的频繁模式挖掘的需求越来越强烈.传统的单机环境已经无法满足大规模图数据挖掘的要求,而现有的并行或者分布式环境
中、外学者一致指出,糊名誊录制度的实行与完备,系宋代进士行卷之风消失的关键因素。但是,北宋仁宗朝以后,仍有一定数量的举子在大比之年前后,编辑文卷投献给社会上、政治上
目的 探讨剖宫产产后出血的相关因素,为剖宫产产后出血的预防提供依据.方法 选择我院择期行剖宫产术的孕妇815例,通过单因素和多因素非条件Logistic回归分析宫缩乏力、胎盘因
目的:探讨骨髓细胞形态学检查在戈谢氏病诊断中的价值。方法:采用瑞氏一吉姆萨染色法、糖原染色法对一例戈谢氏病伴血小板减少患者的骨髓片、血片进行化学染色,辅助骨髓基因及染
通过累加流量传感器检测液体流经时的脉冲信号,转换液体容积的原理设计出具有操作简单、灵敏度高、重复性好、准确度高的电子尿量测量仪,从而减轻检测人员的工作强度与提供准确
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
<正>2012年3月,教育部、财政部联合颁发了《关于实施高等学校创新能力提升计划的意见》,正式启动实施"高等学校创新能力提升计划"(简称"2011计划")。该计划的根本目标是逐渐
&#39;教&#39;是建立在&#39;学&#39;的基础上的,一切教学问题的思考与设计,都与学生对知识的理解、把握程度相关。深度学习的有效课堂教学是通过批判性地看待新知识,经过深入
发黄段子到底会不会被停机?在1月29日的广东省政协分组讨论上,广东省通信管理局局长古伟中明确表示,市民绝对不会因为发一个黄段子就被停机。而据省通信局相关负责人介绍,广东拟
报纸
目的:探讨恶性肿瘤病人化疗过程中未成熟网织红细胞指数(IRF)和相关参数的变化及其临床意义。方法:采用Sysmex XN-9000全自动血细胞分析仪对51例恶性肿瘤患者化疗前后外周血未成