【摘 要】
:
大数据时代,各种数据类型层出不穷,面板数据一度成为关注度高、研究热门的数据类型,聚类作为多元统计和数据挖掘中常用的一种技术手段,频繁出现在面板数据的预处理与基础分析
论文部分内容阅读
大数据时代,各种数据类型层出不穷,面板数据一度成为关注度高、研究热门的数据类型,聚类作为多元统计和数据挖掘中常用的一种技术手段,频繁出现在面板数据的预处理与基础分析中。然而,实际问题背景与侧重角度不同,将会导致现有面板数据聚类方法失效。根据实际问题,提取相应的数据特征,利用提取的特征进行聚类,将使聚类方法更加具有针对性,其效果更理想。本文从实际数据的特征出发,针对面板数据聚类问题进行了相关研究,由此提出了两种适用于不同类型面板数据的聚类方法,通过实证分析检验聚类方法的应用效果与适应性,其结果表明两种聚类方法均能取得很好的效果。具体来讲,本文的主要内容包括以下四个部分:第一、梳理了面板数据聚类方法的发展历程与研究现状,并设计出本文所采取的研究路线,总结了面板数据的类型与数据标准化方法,给出了主成分分析、小波分析、熵值法、系统聚类法等基本原理;第二、改进了一种基于特征提取的面板数据聚类方法(PCA聚类法)。首先运用主成分分析法对前人提取的指标特征进行二次提取,然后对二次提取后的特征采用熵值法赋权,并利用系统聚类法对赋权后的特征进行聚类,通过房地产业面板数据验证了该方法的有效性;第三、提出了一种基于小波特征提取的面板数据聚类方法(WLT聚类法)。运用主成分分析法使面板数据降维成时间序列数据,并依据小波理论提取时间序列数据的主要特征,再对其进行熵值法赋权,运用系统聚类法对赋权后的特征量进行聚类,经股票面板数据验证了该方法的有效性;第四、通过不同数据的交叉对照实验检验出PCA聚类法与WLT聚类法的适用性。经实验验证,WLT聚类法比较适合于时期较长且波动频繁的多指标面板数据,PCA聚类法比较适合于时期较短且波动不频繁的少量缺失数据的多指标面板数据。
其他文献
在我国公路建设中,一直以半刚性基层沥青路面作为道路的主要路面结构形式,而伴随路面结构类型和道路铺筑技术的发展,半刚性基层沥青路面暴露出了易产生反射裂缝、抗水损能力差、耐久性低等难以忽视的缺点。所以对柔性基层沥青路面的研究开始被关注,柔性基层能够吸收和消减半刚性基层裂缝尖端应力和应变,从而减少反射裂缝的产生,并切实提高道路的整体寿命。但由于级配碎石基层较低的模量、容易产生永久变形以及工艺要求较高的特
母乳含有丰富的免疫物质,含有供婴儿生长发育所必需的营养物质,因此提高母乳喂养率是婴儿健康发育的根本保证。我院自创建爱婴医院以来,纯母乳喂养率由原来的58.9%上升至94.8%(1994
目的研究儿童坏死性肺炎的早期预测指标。方法回顾性分析43例儿童坏死性肺炎与83例大叶性肺炎的临床资料,对比两组患儿的性别、年龄、发热天数、实验室检查结果及支气管镜表
1998年12月至2004年4月,本院共收治岩斜区肿瘤32例,均行手术治疗,疗效满意,现报道如下.1临床资料1.1一般资料本组32例中男21例,女11例,年龄22~58岁.病程0.5~3 a.头痛、头晕27例
我应日本日立公司邀请,于今年10月21日至11月3日到日本佐仓、千叶、茂原、京都和大阪等地进行了参观访问。承日立公司盛情接待,我与三田胜茂董事长(会长)、浅野弘副总经理(副
2001年4月至2003年11月,本科对28例子宫腺肌病患者在子宫动脉栓塞术(uterine artery embolization,UAE)中加用平阳霉素治疗,既有效缓解了痛经症状,又保留了子宫,疗效满意,现
首先,我衷心地感谢省科顾委的专家们对省委、省政府的工作提出了非常具有建设性的意见和建议!同时我对省科顾委全体专家为省委、省政府重大决策的参谋咨询工作所做出的辛勤劳
纳米技术在医药学中的应用,已逐渐成为医药学的一个新的分枝。这一新的分枝称之为纳米医药学。纳米医药学中主要应用纳米粒子的三种基本功能:靶向作用、缓控释作用和跨生物屏
胃癌是世界上肿瘤相关死亡的第二位常见原因,在我国其发病率为20/10万左右,死亡率在我国居癌症死亡率的第二位。早期胃癌(Early gastric cancer,EGC)是指癌细胞仅侵及粘膜层及/或
目的:了解支气管哮喘(简称哮喘)发作时肺炎衣原体(Chlamydia pneumoniae,CP)感染的状况,明确儿童哮喘发作与CP感染的关系。方法:对188例哮喘发作患儿和同期53例无呼吸道感染