论文部分内容阅读
在计算机技术不断发展的条件下,越来越多的数据被加以采集和储存,从这些大规模数据中发现的统计规律,可以对投资决策进行指导。算法交易是通过数学和计算机模型从大规模数据中发现投资机会,自动完成证券买卖的投资方式,相比于通行的基本面分析和技术分析具有客观性、纪律性和精确性等优势。算法交易在国外已经存在多年,并在证券市场中扮演着重要角色。随着最近几年我国证券市场的发展,算法交易逐渐被各投资机构重视并加以尝试。算法交易系统的建设需求十分迫切,这从今年夏天因交易系统问题导致的“光大事件”中可见一斑。在对算法交易系统需求进行分析的基础上,本文为算法交易系统做出了较为详细的系统设计,将算法交易系统划分为数据抓取及存储、量化模型运行时、程序下单三大模块。数据抓取及存储模块负责从不同的数据源获取数据并进行持久化存储,机器学习模型运行在量化模型运行时模块中,尝试从大规模的数据中发现投资机会,并通过程序下单模块自动完成证券的买卖。国内现有的算法交易系统被设计为主要用于处理从稳定数据源获取的结构化数据,比如交易所提供的交易记录。在面对内容庞杂的大规模互联网数据时,因存在数据抓取和存储上的困难而较少地使用。主题爬虫技术在垂直搜索中被较为广泛的研究,大规模数据存储的问题作为大数据技术的重要部分也被广泛的讨论。本文将主题爬虫和大规模数据存储技术运用到算法交易系统中,通过使用SVM技术的主题爬虫提高了系统抓取数据的效率,以关系型数据库分库分表技术在保证存储系统事务性的同时能够支撑大规模数据的存储。同时,以分布式数据库为核心,使得交易系统能够快速适配各种不同的数据源。除了实现数据抓取与存储模块外,本文还搭建了量化模型运行时模块,将SVM应用于金融时间序列的处理,结合交易经验,构建出日内交易模型,实验显示该模型的预测准确率略高于现有的研究。以此更好的展示算法交易系统的全貌。