论文部分内容阅读
云计算、物联网和社交网络等先进科技的进步促使人类社会的数据种类和规模正在以前所未有的速度增长,大数据时代已经到来。这不仅是IT产业又一次颠覆性的技术革命,也是经济社会进步的巨大推动力。“大数据”是指其规模、产生速度和处理的难度都超出目前常规的存储、管理和分析技术能力的数据。它的主要特点是量大、流动性高、类型多样、价值稀疏。“大数据”的发展经历了被动、主动和自动这三个阶段。对大数据的分析要借助数据挖掘、机器学习和统计分析等数据分析工具。金融行业(如证券行业等)是对大数据分析需求较高的领域之一,它所存储的海量数据中隐藏着巨大的商一价值。例如股票市场中的持股集中度数据,就一直被认为是影响股票价格走向的一个重要因素。一般认为持股集中则股价走高,持股分散则股价走低。但目前,国内外针对持股集中度的相关研究还比较少。本文便针对某证券公司内部数据库中的股票持股集中度日线数据集,运用了多种数据分析技术,主要对比了各种数据分析方法的效率及各自己的优缺点和适用对象,同时也初步探讨了持股集中度与股票价格之间的相关关系,印证了前人的一些研究结论。本文所采用的大数据分析技术主要有以下四种:一、经典一元线性回归分析技术,这是一种基于最小二乘法的回归分析方法,相关理论已非常成熟;二、基于线性核函数的支持向量机回归分析技术,它的数学模型与一元线性回归一样,都是线性关系模型:三、基于径向基核函数的支持向量机回归分析技术,它所采用的是非线性数学模型,更切合实际,拟合结果具有更高的解释程度;四、最大信息系数法,这是一种基于最大信息熵原理的新型统计量,它是特意为大数据分析而研究出的新算法,它兼顾了大数据分析技术所应具备的一般性与公平性,是一种全新的数据分析统计量。本文的创新点有:一、对持股集中度进行分析,国内外相关研究还较少;二、针对MIC的不足之处,对数据进行了预处理,滤除了不相关关系,压缩了数据,提高了运行效率;三、提出了MIC-SVM联合分析方法。本文经对比研究后主要得出以下结论:一、持股集中度这个指标确实会对股票价格产生非常重要的影响;二、持股集中度与股票价格之间并不总是呈现出正相关关系,有时也会呈现负相关关系,这主要受持股结构的影响;三、支持向量机不宜用于简单的线性回归分析;四、基于径向基核函数的支持向量回归机的分析结果的解释程度最高,但仍需进行参数寻优;五、最大信息系数法考虑到了所有的关系类型,且具有较强的稳健性,但维数受限、未能滤除不相关关系且耗时过长。最后,对支持向量机的参数寻优和对最大信息系数法的算法改进将是下一步的主要研究方向。