大数据的统计分析技术比较研究

被引量 : 0次 | 上传用户:Shimq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
云计算、物联网和社交网络等先进科技的进步促使人类社会的数据种类和规模正在以前所未有的速度增长,大数据时代已经到来。这不仅是IT产业又一次颠覆性的技术革命,也是经济社会进步的巨大推动力。“大数据”是指其规模、产生速度和处理的难度都超出目前常规的存储、管理和分析技术能力的数据。它的主要特点是量大、流动性高、类型多样、价值稀疏。“大数据”的发展经历了被动、主动和自动这三个阶段。对大数据的分析要借助数据挖掘、机器学习和统计分析等数据分析工具。金融行业(如证券行业等)是对大数据分析需求较高的领域之一,它所存储的海量数据中隐藏着巨大的商一价值。例如股票市场中的持股集中度数据,就一直被认为是影响股票价格走向的一个重要因素。一般认为持股集中则股价走高,持股分散则股价走低。但目前,国内外针对持股集中度的相关研究还比较少。本文便针对某证券公司内部数据库中的股票持股集中度日线数据集,运用了多种数据分析技术,主要对比了各种数据分析方法的效率及各自己的优缺点和适用对象,同时也初步探讨了持股集中度与股票价格之间的相关关系,印证了前人的一些研究结论。本文所采用的大数据分析技术主要有以下四种:一、经典一元线性回归分析技术,这是一种基于最小二乘法的回归分析方法,相关理论已非常成熟;二、基于线性核函数的支持向量机回归分析技术,它的数学模型与一元线性回归一样,都是线性关系模型:三、基于径向基核函数的支持向量机回归分析技术,它所采用的是非线性数学模型,更切合实际,拟合结果具有更高的解释程度;四、最大信息系数法,这是一种基于最大信息熵原理的新型统计量,它是特意为大数据分析而研究出的新算法,它兼顾了大数据分析技术所应具备的一般性与公平性,是一种全新的数据分析统计量。本文的创新点有:一、对持股集中度进行分析,国内外相关研究还较少;二、针对MIC的不足之处,对数据进行了预处理,滤除了不相关关系,压缩了数据,提高了运行效率;三、提出了MIC-SVM联合分析方法。本文经对比研究后主要得出以下结论:一、持股集中度这个指标确实会对股票价格产生非常重要的影响;二、持股集中度与股票价格之间并不总是呈现出正相关关系,有时也会呈现负相关关系,这主要受持股结构的影响;三、支持向量机不宜用于简单的线性回归分析;四、基于径向基核函数的支持向量回归机的分析结果的解释程度最高,但仍需进行参数寻优;五、最大信息系数法考虑到了所有的关系类型,且具有较强的稳健性,但维数受限、未能滤除不相关关系且耗时过长。最后,对支持向量机的参数寻优和对最大信息系数法的算法改进将是下一步的主要研究方向。
其他文献
产业的转移与承接被认为是缩小地区经济发展差距的有效手段之一。近年来,由于东部地区要素成本上升、产业结构优化等因素的影响,为中西部地区承接东部沿海地区产业转移提供了
<正>(2007年7月27日)国土资源系统纪检监察干部培训班今天就要结束了。部党组非常重视国土资源系统党风廉政建设工作,绍史部长很重视这次培训,专程从北京赶来看望大家,认真地
柔性交流输电系统(FACTS)作为一项能够有效改善电网电能质量的新兴技术,得到了快速发展。而静止无功发生器(SVG)作为FACTS中的一项核心装置,由于具有良好的控制性能和补偿效
民事举证责任分配制度系民事诉讼过程中最核心的制度之一,该制度的目的解决的是案件事实真伪不明时法官应该怎样裁判的问题,纵观国内外对举证责任分配制度的各种学说的历史延
唐日关系经历了由官方到民间、由政治主导到经济文化主导的转变,在古代中日关系史上占有重要的地位。7世纪前期的唐倭关系围绕朝鲜半岛展开,两国为实现各自的战略目标,度在白
矿产勘查中的三维可视化建模技术已经在国外的矿山勘查、生产中发挥了巨大作用,但是目前这种三维建模技术在国内的地质勘查单位中很少被利用。本文以四川木里县菜园子金矿为
本研究以我国东南沿海地区的典型农业流域——长乐江流域为对象,通过实地调查、数据收集和分析,构建模型所需的各类空间数据库和属性数据库,将流域内各种非点源污染过程的概
对上海市3个典型分流制雨水系统H、G、N的旱流污水水量水质进行了研究.在调查泵站运行情况、服务区域的特点的基础上,得出3个系统单位面积的截流水量分别为3 610、1 550和2 9
从上世纪80年代以来,在中国的城市化进程中,房地产业也在迅速发展。在房地产业的发展过程中,催生了房地产开发商对产品市场推广、品牌形象塑造的需要,因此也带来了房地产广告
目的比较沉淀集菌法、罗氏培养法和聚合酶链反应(PCR)方法检测结核分枝杆菌的临床价值。方法收集2012年6月至2013年5月张家港市第一人民医院临床确诊且经抗结核治疗两月后结