论文部分内容阅读
科技的日趋发展以及对行业数据库的不断扩增积累,大数据这个概念近年已经逐渐进入人们的视野。大数据是集合变量多维化、样本多样化特性的复杂数据类型的结合,而正是基于其所包含的复杂化、创新化的信息与知识,使得人们对于大数据的研究越来越热衷。对于大数据研究的一个重点就是大数据挖掘技术的不断发展完善,归根结底,大数据的作用是它所能提供的知识,而并非只是庞大的数据本身。对于大数据的挖掘任务主要总结为描述任务与预测任务。作为同时具有描述功能与预测功能的聚类模式,在数据挖掘的类划分、预处理步骤上发挥重要的作用,因此以数据挖掘的聚类模式作为本文的主要内容,为读者阐述数据挖掘的思想与方法步骤。现代经济学问题中面板数据存在时间维度上的连续性的特性,针对这一特性,本文基于传统的k均值聚类方法,提出一种改进的聚类方法,该方法的创新之处在于:定义了一种新的对象间相似性指标,该定义方法可以同时考察对象间在时间与空间维度上的整体的相似性;按照样本的时间维度分割聚类,得出对象在每一时间段上的归属情况;借鉴隶属度原理,计算对象属于某一类的权值,权值的大小即反映了该对象属于某一类的可能性大小。该创新之处旨在避免以往聚类方法将样本的时间维度特性退化的缺陷,使得具有时间与空间属性的面板数据在聚类分析过程中尽可能多的保留其时间与空间的信息,从而使聚类结果更为准确。相比于传统的聚类方法,改进的方法同时考虑聚类对象在空间上和时间上的发展趋势,在理论上更加适用于面板数据。在本文中,第1章简述大数据与数据挖掘的知识以及面板数据聚类模式的研究意义,在第2章为读者简述多元聚类分析的相关知识,如多元聚类分析的思想原理以及方法步骤等等,在第3章为读者介绍本文所重点研究的改进的面板数据的多元聚类模式,最后将该方法应用于上市公司的股票数据进行实证分析,并与传统的聚类方法进行多个方面的比较与评价。经过验证,利用改进的方法获得的聚类结果从聚类结果的评价角度上来讲是优于传统的方法的。