论文部分内容阅读
随着金融行业IT技术日新月异的发展,企业积累了海量的金融数据。如何从金融时间序列的内在结构和趋势挖掘有价值的信息,是既有挑战也有现实意义的工作。面对规模巨大的金融数据,除了可以使用经典的时间序列分析技术,还可以使用数据挖掘和机器学习的方法。数据驱动的机器学习和数据挖掘擅长的就是从数据中挖掘模式和预测趋势。用机器学习技术对数据进行多层次、多角度分析,使得管理者基于过去的企业状况对未来趋势进行预判,进而提供科学合理的决策。基于相关性对股票进行聚类,不仅是捕捉市场信息、制定投资策略的关键,而且有助于理解市场的运作机制。本文以金融数据中最常见的股票数据为载体,通过聚类算法探索股票数据蕴藏的有价值的信息。本文对股票聚类的相似度和聚类评价指标进行了研究,主要的研究内容分为以下两方面。首先,在股票聚类的相似性度量方面,提出了基于Copula函数的线性融合相关系数Linear_SLU和非线性融合相关系数NonLinear_SLU。相关系数是常用的股票时间序列相似性度量,但是经典的相关系数无论是Pearson相关系数还是秩相关系数都有局限性。为了充分利用不同相关系数的信息,本文对基于Copula函数的融合相关系数进行了深入探讨。提出了基于Copula函数的线性融合相关系数Linear_SLU和非线性融合相关系数NonLinear_SLU,在此基础上对股票之间的相似性进行度量,再使用聚类算法得到聚类结果。通过对50只上证股票在稳定、大涨、大跌三个时期的聚类实验,验证了这两个融合相关系数的有效性。聚类结果表明基于NonLinear_SLU相关系数的聚类方法无论在平稳时期还是大涨、大跌时期都能使得聚类结果变得更合理;而基于Linear_SLU相关系数在平稳时期也可以有效地得到聚类结果。其次,在股票聚类的评价指标方面,提出了一种基于投资组合有效前沿的股票聚类评价指标BEF。该方法从股票投资组合的有效前沿出发,得到所有股票的有效前沿曲线和聚类选择簇代表股票的有效前沿曲线后,用两条曲线之间的加权距离BEF值来评价聚类的效果。通过基于股票数据的聚类实验对BEF的性质进行探讨,分别研究了BEF值随聚类数目的变化趋势、不同相似度下BEF值的稳定性以及基于BEF值的最佳聚类数目。通过实验的方法说明了基于投资组合有效前沿的股票聚类评价指标BEF值的有效性。本文的创新工作可以概括为以下两点。1、提出了基于Copula函数的线性融合相关系数Linear_SLU和非线性融合相关系数NonLinear_SLU,并用股市的真实数据分析了这两个相关系数用于股票聚类的效果。2、提出了一种基于投资组合有效前沿的股票聚类的评价指标BEF,通过实验分析了BEF值的特性。本文最后对所做的工作进行了总结,并对以后的研究方向提出了展望。