论文部分内容阅读
中国股市从2006年1月份的1100多点升至2007年10月份的6000多点,升幅巨大,在世界也是罕见的。虽然蕴涵着巨大的投资机会,但却也使部分投资者亏损累累。随着经济的发展,股票市场越来越受到人们的重视,其在经济体系中也发挥着越来越重要的作用。而股市的健康发展和繁荣也成为管理者和投资者关心和研究的重点。股票投资的收益与风险往往是成正比的,即投资收益越高,可能冒的风险越大。因此,股市预测方法的研究具有极其重要的应用价值和理论意义。传统的技术分析和基本面分析也各有各自优缺点,而我国的股市正日益成熟和规范,投资者在进行投资决策时也愈加趋于理性化。本文试图应用数据挖掘的办法来在股票分析中,帮助投资者获取更多的股市关联信息以加强对某些个股的分析和判断。因为目前世界上尚无很好的预测股市方法,目前可以运用许多统计分析方法来发现一些隐藏在股票信息中的规律,本文的工作也就立足在关联原则基础上进行分析,以帮助投资者对股票进行预测。在整个数据挖掘的研究中,算法的研究占有特别重要的地位。数据挖掘面对的是大量数据集,算法的效率起到决定性的作用,因此,研究和改进现有的算法,有着十分重要的意义。鉴于此,本文对关联规则挖掘算法进行了研究。首先对股票的基础知识作了简单地概括,对数据挖掘作了一般性介绍,包括数据挖掘的概念、模式、挖掘的主要问题、数据挖掘系统的分类以及应用和发展趋势。然后,对数据挖掘中重要的关联规则挖掘算法做了深入的研究,分析了关联规则中经典的Apriori算法、AprioriTid算法和Apriori算法的在股票数据的改进算法,总结了算法中存在的问题;接着,详细介绍了本文内容的重点之一,基于成交量和二维时间模式下的双事务股票时间序列关联的研究的一种OptimizedApriori算法的改进算法。为了更好地挖掘股市信息,就必须结合股市的特点,特别是股票自身的运作规律,股票的走势包含了数以万计人的思维和智慧,必须通过详细和耐心的观察才能学之一二。经过长期学习、跟踪股市及模拟演练,挖掘出在股市中存在的这样一些带有时间约束的规律——在某个时间段w(如一天)内,如果股票A的收盘价上涨超过2%,成交量大于vol_min(某个设定的阈值),那么间隔DAY个时间段(如两天)后的那个时间段(即第三天)内股票B和股票C会以80%的可能性也上涨(或下跌)。最后在Microsoft Visual C++6.0环境下完成了对股票数据的处理、算法的改进及挖掘工作。实验验证了改进的OptimizedApriori算法的效率在一定程度上优于Apriori算法;同时挖掘出了大量关联规则,其中一些颇具指导意义。