论文部分内容阅读
随着零售业的联机事务处理、金融市场及传感器网络等发展,存在着大量的快速变化的、潜在无限的数据流。而在这些数据流中往往存在着大量有用的知识,因而如何从数据流中挖掘出这些未知但又有价值的信息,从而指导人们做出决策,是当前数据挖掘领域所面临的热点和难点之一。特别是针对隐含有概念漂移的数据流,如何研究出一种能够适应概念漂移数据流的分类方法,并对周期性出现的概念能够更有效地处理,是本文的研究重点。与此同时,期货市场是一个非常复杂的非线性的动态时间序列系统,它传递的价格信息是对未来供求状况的预期。因此,对期货市场进行价格趋势的预测,对于国民经济的发展,政府进行市场监管,投资者投资净效用最大化等方面都有极其重要的意义。正是基于此,本文提出了融入概念相似度的计算动词决策树分类算法,该算法不仅引入计算动词概念,使得生成的决策树具有动态预测效果,还能够针对数据流中出现的概念进行存储,再一次出现时通过相似度计算进行历史概念匹配和查找,用相似度较高的一个或几个历史概念对应的分类器对其进行分类,大大加快了分类速度,更能够适应期货市场实时预本文首先阐述了数据挖掘背景以及期货市场量化投资的相关研究基础,指明在期货市场量化投资的策略上,应用数据挖掘相关知识能够达到较好的效果。然后简单的介绍了数据挖掘中隐含概念漂移的数据流分类算法,及期货市场量化投资现有的相关研究方法。其次,本文研究了融入概念相似度的隐含概念漂移的决策树分类算法。该算法通过概念的定义计算概念之间相似度,对相似度高的新概念免去学习过程直接用历史概念的分类器对其进行分类。同时介绍了计算动词决策树算法,通过引入计算动词概念,使得新的决策树能够体现动态变化过程。最后,本文结合上述两种算法研究一种新的融入概念相似度的计算动词决策树分类算法,首先对数据库进行动词化,然后当检测到数据流发生概念漂移时,算法并非直接对当前数据流进行训练得到新的分类模型,而是先对当前数据(概念外延)进行相似度检验,查找相似度高的概念内涵或者较高的概念内涵,使用高相似度概念内涵对应的分类器或者较高概念内涵对应的分类器组合对当前数据进行分类预测,使得算法在分类效率及准确率上大大提高。因此该算法包含上述两种算法的优点,最后本文通过期货市场的实证分析,在期货市场的投资收益率来体现算法的有效性。