股市数据挖掘中偏模型的检验和应用

被引量 : 0次 | 上传用户:meimei5211314
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中国股市已经走过24年风雨历程,这一路跌跌撞撞,起步虽晚的中国股市在不断地进行着自我探索,又在不断地自我否定中理性回归。这24年来,面对尚未达到弱式有效的股票市场,各界专家学者做了大量关于股市特点及股市预测方面的研究。现今的研究主要可分为两大派别:基本面分析和技术面分析。基本面分析承认股票价格是公司内在价值的反映,注重对分析变量的选择;技术面分析则以历史上的开盘价、收盘价、最高价、最低价等等作为预测未来股价的丰沃土壤,注重对数据处理方法和模型建立方法的选择。应该说两大派别体系不同,各有千秋。但无论如何,中国股市未达到弱式有效是不争的事实,股票价格序列历史相关,技术面分析有其立足点。本文隶属于技术面分析。从现有的技术面分析方法来看,大致有时间序列分析法、模糊数学、混沌理论、数据挖掘等分析技术。其中的数据挖掘技术是近些年来随着数据量几何式增长出现的一种新的处理大量数据的技术,它事先并不规定待探索信息的形式,而是让数据本身来说话。时下流行的数据挖掘技术有决策树、神经网络、支持向量机、聚类分析等。而每一种技术本身又可有多种实现算法。毫无疑问,面对庞大纷杂的股票数据,数据挖掘技术是一种很好的处理方法。目前各学者在用数据挖掘技术研究股票市场时,主要从挖掘技术本身的算法设计及改进、股市变量的选择以及处理、股票数据的使用方式以及不同挖掘模型的组合使用几个方面进行研究改进。本文亦选择数据挖掘技术作为研究股票市场的起点,但尝试从一个全新的角度对这种技术进行探索、改进,提出数据挖掘偏模型的概念。数据挖掘偏模型的概念起初是源于对分类树特有模型结构的思考。分类树模型的输出结果是一棵拥有很多片树叶的树,它的每一片树叶都代表了一条知识表述,有多少片树叶,就有多少条知识表述。在实际应用中,这些知识表述的利用价值有所不同:有些树叶所阐述的知识屡试不爽,预测正确率很高,而有些树叶所阐述的知识几乎没有利用价值,预测正确率极低。因此如果把每一片树叶都看作是一个子模型,就可以对每一个子模型都进行预测正确率的计算而不是对模型整体进行正确率的计算,寻找到那些正确率较高的子模型并将其它正确率较低的子模型予以放弃就是建立偏模型的过程。事实上,在股市上,有操作价值的买点和卖点是有限的,成功的投资者绝不是每天频繁进行买进卖出操作的那一部分人,而是能够看准时机,只在股票信号最明显、最有把握的时刻出手的投资者。本文运用上证综合指数的基础数据建立决策树偏模型。由于K线图操作理论相对完善,为了便于将模型输出结果和已有理论进行对比,本文将股市每日开盘价、收盘价、最高价、最低价4个基础指标转换成上影线长、下影线长、箱长、箱色4个指标并以这4个指标为输入变量,以10日后股票涨跌情况为输出变量。用R软件(版本3.0.2)建立决策树模型后进行筛选,把拟合正确率最高的7片树叶集中到一起,发现:若同时具有孕线组合和双针探底,股价上升;若只具有双针探底,则若探底针较长(>=9.65),股价也上升;若探底针不明显,未来不详;若只具有孕线组合,单从基础数据来看,未来不祥。“孕线组合”和“双针探底”是人们已经做出的关于K线图形态特点含义的经验总结,分类树偏模型的初步探索与经验总结基本吻合。决策树偏模型是从模型输出结果角度考虑的偏模型。它的本质是只接纳了模型结果的一部分而不是全部。进一步的,本文在决策树偏模型的基础上对偏模型概念进行了扩展。股市可供操作的买点和卖点有限,只有当股价信号明朗(无论是上升还是下降)时,才有必要进行预测。基于这一思路,支持向量机偏模型旨在找到可以用其进行预测的最佳数据环境。这是从模型输入角度考虑的偏模型。具体来说,如果我们不加选择的运用训练数据建立SVM模型并进行预测,效果并不好,SVM偏模型则是在用训练数据集A建立模型M1之后,挑选M1中拟合正确的数据记录,记作集合B,再用集合B建立模型M2;然后用分类树寻找并归纳集合B中数据记录的共同点,记作K,用模型M2仅预测验证数据中具有特点K的数据记录。也就是说,只有具有特点K的数据记录才有资格成为模型M2的输入。在建立SVM偏模型之前,本文运用方差分析的方法证明不同数据输入建立的SVM模型,在拟合优度方面的确有显著不同。将2011年1月20日——2014年2月18日的735条数据进行分组,每50条数据为一组,共有14组数据,对这14组数据进行三组对比实验,第一组实验,每组数据里的每条数据都会作为建模对象;第二组实验,每组数据仅选择前30条数据作为建模对象;第三组实验,每组数据仅选择前20条数据作为建模对象。在三组数据输入方式建立的模型的拟合度没有显著差别的原假设下,P值近似为0,可认定否定原假设,同一时间段内的不同的数据输入的确可导致完全不同的拟合优度。在初步验证了决策树偏模型的实用性和支持向量机偏模型的合理性之后,本文利用这两种偏模型寻找股票市场上的投资规律。在第五章中,运用决策树偏模型,’以“昨日箱长、昨日箱色、昨日下影线长、今日箱长、今日箱色、今日下影线长、DIF、DEA、DIF-DEA"为输入变量,以“10日后股票涨跌”为输出变量,找到拟合正确率为80%以上的9片树叶,并把这9片树叶所揭示的规则应用于验证数据,发现其中的32号、11号、132号、266号规则,均达到100%的预测正确率。而将这些规则进行整理、综合以后,发现它们实际上是:若DIF-DEA<-1.85,股价预测会下跌;若DIF-DEA>11.05,股价预测会上涨;若-1.85<DIF-DEA<11.05,股价未来趋势不明朗。在股市技术分析的历史资料中,有当“DIF>0且DEA>0时,DIF>DEA,股价会上涨;当DIF>0且DEA>0时,DIF<DEA,股价会下跌;当DIF<0且DEA<0时,DIF>DEA,股价会上涨;当DIF<0且DEA<0时,DIF<DEA,股价会下跌”的技术总结,可以看出,本文决策树偏模型的结论实际上是在此总结的基础上给出了更确切的数值区间。本文认为,模型结果对区间要求更为严格(不再以0为分界线,而是以-1.85和11.05为分界线),可能是投资者心理原因所致:当股市略有反弹时,大多数股民仍会处于观望状态,不会轻易出手,反而导致未来不明朗。只有股市的反弹达到一定程度,股民才会相信春天已来,出手买入,未来股价上升。反之亦然。在建立支持向量机偏模型时,首先对训练数据进行建模,建模后将拟合正确的数据集中到一起再次建模,并寻找它们的共同规律,将这些规律分别记作G1、G2、G3……;然后将验证数据中符合规律G1,G2,G3……的记录筛选出来,用再一次建立起来的模型进行预测,计算预测正确率。按此思路,从拟合正确的验证数据身上找到了4条共同规律:它们基本上都是在下影长前、DIF、DIF-DEA三个指标上具有某种共同点。把验证数据中符合这4条规律的数据筛选出来进行预测,正确率分别为57.1%、46.1%、72.7%、75%。平均数明显高于不加处理、直接使用训练数据建模,验证数据验证时的正确率55.5%。进一步证明了存在适合使用SVM模型进行预测的数据环境,仅在这种环境来临时进行预测比不加选择不分时机的盲目预测效果要好得多。传统的经典统计学总是首先给出符合经济理论的一组变量,事先指定这组变量的相互关系,然后在事先构筑好的框架中进行各种回归分析,是一种“先理论,后数据”的思考模式。而数据挖掘技术则打破这种常规,它并不事先给定任何“应该是什么”的理论束缚,而是把话语权完全的交给数据本身。可以说,它是一种“先数据,后理论”的思考模式。正因如此,本文大胆地在没有详尽数学推导的情况下讨论了偏模型的概念。本文不仅提出了偏模型的概念,还扩展了偏模型的概念:在利用数据挖掘技术处理数据时,或数据输入、或数据处理、或结果输出,在整个模型建立的过程中,只要有一个环节不是整体的被采纳,我们就称这样的模型为数据挖掘偏模型。分类树偏模型是从“输出结果”的角度考虑的偏模型,支持向量机偏模型是在“数据输入”过程中的偏模型。未来,更多含义更多角度的偏模型有可能出现。笔者相信,越来越多的学者将会加入到对偏模型的讨论中来。
其他文献
住房按揭贷款证券,即MBS (Mortgage Backed Security)是在抵押贷款二级市场发放的次级债券。贷款发放机构作为供给方将自己的某种住房抵押贷款合同捆绑作为标的组建资产池,持
文化遗产体现着一个民族独特的思维方式和文化价值,是民族的根基,是历史的纪念碑。历史文化遗产既属于一个国家、一个民族,也是全人类的共同财富。人们对文化遗产价值的认识
作为新型绿色经济,会展与旅游、房地产三大无烟产业成为了各个国家争相发展的对象。会展活动给一个国家或地区提供了良好的平台,让其进行对外开放、投资促进以及经贸合作,会
目的:了解工科大学生的学习倦怠现状;理清学业归因、自我效能感和学习倦怠的关系,探索学习倦怠的作用机制;提出干预学习倦怠的策略。方法:采用多维度—多归因因果量表、一般自我
银行业处于金融体系的核心地位,在现代经济中扮演着越来越重要的角色。在后金融危机时代,世界经济金融格局发生了重大变革,全球银行业也发生了根本性的结构调整,并呈现出竞争
<正> 这里向广大师生选介一篇高考优秀作文。这篇命题作文,以“先天下之忧而忧,后天下之乐而乐”是中华民族的传统精神为中心深入展开议论,既充分肯定了历史上以天下兴亡为己
凝聚叶锦30余年艾青研究心血和激情的学术专著姊妹本《还艾青一个清白——艾青研究史料考证》和《艾青年谱长编》,通过大量鲜为人知、忠实可靠、意义非凡的"一手"资料,拓展了
目的:建立高效液相色谱法测定奥拉西坦葡萄糖注射液中奥拉西坦及其有关物质的方法.方法:色谱柱为ZORBAX SB-Aq C18柱(250×4.6 mm,5μm),以0.02 mol·L-1磷酸二氢钾(用磷酸调
水土流失的危害是不言而喻的,在水土流失的过程中,土壤的肥力会不断下降,水层也会变得越来越薄。作为自然灾害的一个组成部分,水土流失的防治对于国家的发展与人民生活水平都
目的:采用定量组织速度成像技术(quantitative tissue velocity imaging,QTVI)及组织追踪成像技术(tissue tracking imaging,TTI)超声心动图评价妊娠期高血压疾病(hypertensi