两类复杂数据及相关模型的统计分析

来源 :山东大学 | 被引量 : 0次 | 上传用户：liufendou

【摘要】

：

在过去的几十年里,随着计算机的计算速度和存储能力的提高,人们能够收集、存储和分析在金融市场、医学诊断、生命科学、环境调查等各个领域大量涌现的复杂数据集.这些数据集

【作者】

：

崔霞

【出处】

：

山东大学

【发表日期】

：

2008年期

【关键词】

：

复杂数据协变调整的回归模型稳健判别分析稳健拟似然最小二乘投影深度核估计经验似然置信域渐近行为

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在过去的几十年里,随着计算机的计算速度和存储能力的提高,人们能够收集、存储和分析在金融市场、医学诊断、生命科学、环境调查等各个领域大量涌现的复杂数据集.这些数据集往往有下面的特征:包含异常值,有观测误差,纵向抽样,维数超高（大“p”,小“n”）等等.为了能够处理各个科学领域出现的复杂数据,一方面我们需要拓展传统的统计方法,另一方面我们更加迫切需要提出全新的统计方法。本论文主要考察两类数据集:混杂了同一个协变量的数据集和含有异常值的数据集。我们对前者做了回归分析的研究,对后者做了判别分析和构造稳健拟似然框架的研究。Kaysen et al.（2003）给出了一个“混杂了同一个协变量的数据”的例子——血液透析病人的纤维蛋白原的数据。在该数据中人们感兴趣的是纤维蛋白原水平和铁传递蛋白水平的回归关系。而这两类蛋白水平都依赖于BMI（body mass indexweight/height²）,那么BMI必然会对回归关系造成一定的扭曲。为了刻画回归中的这种扭曲并给出相应的调整方法,Sent（?）rk和M（?）ller（2005）建立了协变调整的线性回归模型（covariate-adjusted linear regression,CALR）,同时通过将该模型转化成变系数模型得到了模型中参数的估计。在第二章中,我们给出了另一种直接估计参数的方法:第一步,用设计变量和响应变量对协变量做回归,从而得到扭曲函数的核平滑估计,继而得到关于不可观测的设计变量的估计和不可观测的响应变量的估计;第二步,利用估计的设计变量和响应变量可得到参数的最小二乘估计。我们证明了新的估计方法所得估计的n^1/2一致性和渐近正态性。同时我们给出了一个我们的方法具有更小的渐近方差的充分必要条件。与第二章所讨论的数据类型相同,在第三章中,我们建立了协变调整的非线性模型（covariate-adjusted nonlinear regression,CANLR）并考察了该模型的性质。同样地,在该模型中,设计变量和响应变量不能够直接观测到,观测到的是被一些乘积因子混淆后的版本。由于非线性性的存在,Sent（?）rk和M（?）ller（2005）的估计方法不能直接用到CANLR模型的参数估计上。为此,我们沿用第二章中的估计方法可得设计变量和响应变量的估计,进而利用非线性最小二乘得到参数的估计。同样地,我们考察了n^1/2一致性和渐近正态性.然而由于渐近方差的结构非常复杂并且含有很多未知待估的项,我们如果用“正态近似”的方法去构造参数的置信域,效率会很低。为了避免估计渐近方差,我们采用经验似然的方法来构造置信域。尽管在构造的经验似然比中有无穷维的讨厌参数的估计（扭曲函数的估计）插入,经验似然比的渐近分布仍然是卡方的。这就保证了用经验似然比建立置信域是可行的。异常值很有可能是一些含有重要信息的数据点,像污染区域之于环境数据,或者不规则情形之于病人的在线监护数据。人们希望统计方法做到既能够充分利用这些异常值信息又不要对异常值过于敏感。对于此类数据,我们在第四章中主要研究了稳健的非参判别分析。首先我们定义了推广的投影深度（extended projection depth,EPD）,然后给出了判别准则—未来的观测值关于哪个总体具有最大EPD,则认为它来自那个总体。我们讨论了基于EPD的判别准则的稳健性质及其误判概率的渐近性质。进一步地,当所考察总体的分布是椭球对称时,基于EPD的判别准则渐近等价于最优的Bayes判别准则。在最后一章中,对于离散随机过程我们给出了将拟似然推断的理论框架稳健化的一般的做法。主要是基于投影深度函数对异常的正交基降低权重,从而得到稳健的正交基.在由稳健的正交基构造的估计函数空间中,我们仍然能够找到具有某些最优性质的估计方程。所得估计方程和估计量都有良好的稳健性质,崩溃点值接近于1/2（p+1）。同时,所得估计量仍然保持渐近正态性。我们还讨论了该估计方法所带来的效率的变化。模拟实验和实际数据的应用进一步阐释了上述各种方法。

其他文献

初中思想品德课堂生活化教学策略

【关键词】思想品德课堂教学生活化策略　　【中图分类号】G 【文献标识码】A　　【文章编号】0450-9889（2013）06B-0029-02　　“教育回归生活”是思想品德课程教学的基本理念之一，教师应从学生的生活体验出发，运用多种教学方法和手段来模拟、再现和创设生活情境，让学生经历“参与—体验—感悟”的过程，以提高课堂教学的有效性。在此，笔者提出以下思想品德课堂生活化教学的策略。　　一、导

期刊

思想品德课堂教学生活化策略

“本土化”翻转课堂模式在高中英语课堂的应用研究

翻转课堂作为近年兴起的一种全新教学模式备受全世界学者专家以及一线教育工作者的关注与青睐。其“课上”知识内化和“课下”知识传授的教学模式以教学的一个全新视角呈现出

学位

翻转课堂教学模式“本土化”英语课堂教学

基于IPA分析的白水洋景区游客满意度研究

采用IPA分析法,对白水洋景区进行游客满意度调查。选取景观特色、观赏价值、餐饮价格、内外交通便捷性、住宿卫生等29个评价指标,通过发放问卷方式,得出游客对各指标的满意度

期刊

IPA分析游客满意度白水洋景区

陕、甘、川交界处摩天岭区碧口群层序及时代划分

长期以来,对碧口群的时代归属、碧口群的总体构造形态、碧口群的基底及上覆层等问题众说纷纭,争论不休。经笔者通过寻找碧口群基底、剥开碧口群的上覆层等项研究,把广义的碧

会议

基于古建筑保护修缮需求的三维激光扫描数据应用研究

随着社会的发展和人民意识形态的不断提升,中国古建筑作为中华文化艺术的瑰宝,古建筑保护修缮工作受到社会越来越多的重视。在当今社会各领域数字化、信息化的整体迅速发展的

学位

三维激光扫描点云数据古建筑保护修缮应用

老年人居住环境设计研究

本文通过分析我国老年人口数量发展趋势和养老机构现状，提出了建筑社区功能规划和室外环境设计的重要性，把老年社区按功能分为居家自理型社区、综合介助型、医疗介护型机构，按照

期刊

老年人居住环境室内环境室外环境

两类复杂数据及相关模型的统计分析

与本文相关的学术论文