论文部分内容阅读
如今,信息技术发展越来越快,高速发展的信息技术以及规模不断扩大的数据库技术,都保存着形式多样、规模巨大的数据。股票行业的交易数据是非常大的,早已达到GB级别。如今,数据就意味着价值。我们现在缺少的不再是数据,而是如何去挖掘数据背后的信息。聚类分析方法作为数据挖掘中的一个重要分支,目的就是研究数据之间的相似化,把相似的数据划分为同一类中。根据各只股票价值的不同,通过聚类把价值相近的股票聚为一类,从而把握股票的总体趋势,判断股票的潜在价值。股票交易数据随着每笔交易的产生在实时变化着,并且连续不断的产生,这正符合流数据的典型特征,因此,对股市行情数据的分析与挖掘应采用流数据挖掘技术。因此本文选取流数据聚类算法,对股市交易数据进行聚类分析。本文首先对现有的传统聚类算法在股票市场的应用以及流数据聚类算法的相关文献进行了梳理。其次,本文对流数据聚类技术进行了详细的介绍。主要包括流数据的三种模型:时间序列模型、收银机模型、十字转门模型;四种常见的概要数据结构:特征向量、原型阵列、核心树和网格;四种常用的移动窗口技术:界标窗口、滑动窗口、衰退窗口和倾斜时间窗口。接着本文分析了流数据聚类在股市分析中的应用背景和现状,根据股市数据特点,通过对流数据挖掘方面的一些最新成果的研究,比较了各成果的优缺点,采取基于密度的流数据聚类算法D-Stream,并对该算法的概念、思想等方面进行了全面的介绍。最后,本文选用上证50成分股的分笔交易数据,选取成交价格和成交量作为聚类指标。本文选用D-Stream算法,该算法分为在线和离线两个部分,其中在线部分负责接收数据流,并将数据映射到相应的网格,而离线部分负责计算网格的密度,并根据网格密度对网格进行聚类,D-Stream算法通过使用衰减因子来体现数据流的动态性。对于数据流,在每一个时间间隔,D-Stream的在线部分会连续的读取新的数据记录,把多维数据放入多维空间中相应的离散密度网格里,并且更新密度网格的特征向量。本文将衰减因子设置为0.01,网格大小设置为0.2,网格密度设置为10,利用衰减因子,数据密度和聚类结构之间的复杂关系,并实时有效地有效地生成和调整集群,并对最后一次聚类的结果进行分析。结果表明所研究的股票都能很好地分到金融行业、基建和重工业行业、制造行业以及高新技术和服务行业这几个行业大类,金融行业、基建以及重工行业、制造行业的组间存在着不可忽略的关联性,分到这三个组的股票均属于传统行业,占到总体数量的多数,占到总体市值的主要部分。同时本文根据聚类结果实现价值聚类,对各只股票的未来价格走势做出初步预测,低于相对价值的股票,价格会有一个上涨的趋势;高于相对价值的股票,价格会有一个下跌的趋势。通过对股票进行合理的聚类分析,以及实时的给投资者提供分析结果,能帮助投资者准确地了解和把握股票的总体特征,确定投资范围,并通过各类的总体价格水平预测股票价格的变动趋势,可以满足用户对股市行情的实时查询和分析需求,选择有利的投资时机。