【摘 要】
:
有限混合模型是用来处理来自几个未知的同质总体的变量之间关系的一种统计工具,它是由几个分布加权混合而成的.有限混合模型也被称作无监督学习模型,在聚类分析、数值分类等方面有着广泛的应用.有限混合回归模型是有限混合模型的进一步推广,随着现实生活中高维数据的不断出现,有限混合回归模型中的变量选择问题逐渐成为统计推断研究的热点问题.有限混合回归模型下的变量选择问题在统计建模中经常遇到,但大部分都是假设回归误
论文部分内容阅读
有限混合模型是用来处理来自几个未知的同质总体的变量之间关系的一种统计工具,它是由几个分布加权混合而成的.有限混合模型也被称作无监督学习模型,在聚类分析、数值分类等方面有着广泛的应用.有限混合回归模型是有限混合模型的进一步推广,随着现实生活中高维数据的不断出现,有限混合回归模型中的变量选择问题逐渐成为统计推断研究的热点问题.有限混合回归模型下的变量选择问题在统计建模中经常遇到,但大部分都是假设回归误差为正态分布,而正态分布在处理噪音数据和偏斜数据时是不合适的.鉴于此,本文主要在厚尾数据、偏斜数据等复杂数据下对有限混合回归模型中的稳健参数估计问题、变量选择问题进行系统地研究.更进一步,我们还考虑了对混合比例进行建模,从而将有限混合回归模型推广到有限混合专家回归模型,并提出一种新的稳健参数估计方法.具体地讲,本文所开展的研究工作如下:针对厚尾数据下的有限混合回归模型,基于t分布考虑了一种稳健的变量选择方法.采用基于惩罚似然的变量选择方法对均值回归模型中参数部分解释变量进行变量选择,该方法不仅能选择出均值回归模型中参数部分重要的解释变量,而且在对均值模型中参数部分进行估计时对异常值有较好的稳健性.进一步,在选择合适的调整参数的情况下,证明了模型中的极大惩罚似然估计值具有相合性和神谕性质.最后通过模拟研究和实例分析,研究了所提出方法的有限样本性质,结果表明所提出的变量选择方法是可行且有效的.针对偏斜数据,研究了偏正态分布下有限混合回归模型的变量选择问题.采用基于惩罚似然的变量选择方法对均值回归模型中参数部分解释变量进行变量选择,提出的变量选择方法能够将均值回归模型参数部分中不重要的解释变量从模型中剔除,而且研究发现,当偏度参数取不同的值时,该变量选择过程的表现没有显著的变化.进一步,在选择合适的调整参数的情况下,得到了模型中参数估计值的渐近性质.最后,该方法同时用来进行了模拟研究和实例分析,结果表明提出的变量选择方法是有效的.针对皮尔逊Ⅶ型分布下的有限混合专家回归模型,主要研究了一种新的参数估计方法.采用改进的EM算法,在对数似然函数的基础上对其增加一个混合比例模型中回归系数的二范数惩罚,从而使参数估计结果表现出较好的性质.更进一步,证明了混合比例模型中参数估计值不仅具有相合性,而且在有限样本中也表现出很好的估计结果.此外,该方法对均值回归模型中参数部分的估计相对于传统的估计方法具有较好的稳健性.最后,该方法同时用来进行了模拟研究和实例分析,结果表明提出的变量选择方法是有效的.
其他文献
目前对热水沉积区优质烃源岩的研究以及热水沉积与优质烃源岩成因机理关系研究,还相对比较薄弱。对热水沉积与优质烃源岩的相关性与成因机理的研究,不仅属于一项基础研究,而且对于油气的勘探开发均具有重要的理论和实际意义。本研究拟以黔北地区下寒武统牛蹄塘组黑色页岩为重点,系统采集黔北贵州省贵阳市清镇市百花湖乡温水村,遵义市遵义县松林镇中南村,毕节市织金县桂果镇联兴村,黔东南州麻江县下司镇羊跳村,黔东南州丹寨县
正交频分复用(OFDM)是一种适用于高速无线传输的多载波调制技术。它已经被广泛的应用于多径衰落条件下,具有频谱效率高、抗多径衰落等优点。OFDM与生俱来的高峰均比问题限制了它的广泛应用。在许多文献中提出的很多的峰均比(PAPR)降低技术中,子载波预留技术已经受到了很多关注。该技术使用一些预留子载波来产生峰值减小信号以降低OFDM信号的峰均比。然而,获得优化的峰值减小信号需要解决一个二次约束的二次规
时间序列是否具有混沌特性决定着预测方法的探究及其相关性质的讨论,影响着时间序列预测的准确性,混沌辨识为时间序列的预测提供了重要的理论前提,因此,混沌辨识研究在时间序列分析上具有极其重要的地位.本文主要采用有序模式、排序熵等研究方法及混沌理论对降雨量时间序列、径流量时间序列以及交通流时间序列进行研究.首先,对降雨量时间序列和径流量时间序列以及交通流时间序列进行数据预处理.其次,引入基于有序模式的三态
随着中国物流行业的蓬勃发展,物流在不断凸显其对我国经济发展的基础性作用的同时也带来了巨大的挑战。在当前物流行业的粗放发展模式下,物流成本过高的问题已经成为物流行业
本文为《铁路桥涵混凝土结构设计规范》汉译英翻译实践报告,是作者读研期间参与的一个基于计算机辅助翻译工具的协同翻译项目,作者负责其中约16000汉字的翻译。本报告首先介绍了该翻译项目的大致情况,阐述了该项目的实际意义,分析了客户要求,并梳理了本报告的脉络结构。其次,本报告回顾了项目译前、译中与译后的过程。之后则重点解释了技术文本中专业术语的含义及特点,并阐述了专业术语翻译的原则。本文的一大创新在于:
隐藏吸引子是一种新的吸引子,与典型的Lorenz、Rossler、Chen吸引子不同,它不包含平衡点的邻域,也不能用传统的计算方法去计算这些隐藏吸引子.第一章讲述吸引子理论研究的背景和意义,并介绍隐藏吸引子的一些预备知识,如:新分析-数值算法的思想、谐波线性化和稳定周期解的定位.第二章研究一类非线性Van der Pol-Duffing振子,研究这一非线性系统的隐藏吸引子.首先,通过计算系统的特征
近年来,深度学习方法极大地提高了人脸识别的准确性,为了获得更高的识别准确率,集成学习可以应用于深度学习算法中。传统识别算法难以捕捉到面部表情所传递的有用信息,面部表情识别存在分辨率低、遮挡、光照、位置等问题,通常情况下,由于这些面部表情分类很差,人类无法识别它们。此外,面部表情的分类比较特殊,例如面部微笑并不总是意味着开心,面部表情往往取决于文化。然而,提高面部表情识别准确率可以应用到更灵敏、更智
第一部分倒退型孤独症谱系障碍儿童基于纤维束示踪的空间统计分析研究目的:利用基于纤维束示踪空间的统计分析(Tract-based spatial statistics,TBSS)技术,比较分析孤独症谱
2017年12月31日起我国开展第二次全国污染源普查。普查数据作为制定环保政策与编制环保规划的依据,数据质量至关重要。十年前,第一次污染源普查受到技术发展的限制,数据审核
目标检测是计算机视觉领域的核心分支,主要任务是在给定的输入图像中找到感兴趣的目标,并确定它们的大小和位置。目标检测在实际应用中常常会受到目标的形状、姿态、大小、光