三次多项式单指标模型及其相关估计

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:zhhs555
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,半参数模型在微观经济与统计等领域具有广泛的应用。由已知研究可知,传统的参数模型(线性回归模型)虽然已经有了一套完整的理论体系,但是它无法刻画独立变量与协变量之间的潜在关系。而现实世界事物的运动规律往往是呈现非线性关系。将线性关系强行运用于非线性数据集中,这会出现模型误判等问题。另一方面,传统的非参数模型,虽说可以不依赖特定的回归模型,但是一旦数据维度过高,相关的估计方法容易遭受维数诅咒(curse of dimensionality)。为了弥补上述两种模型的不足,半参数模型应运而生。半参数模型不仅继承了参数模型中参数的可解释性,还拥有非参数模型的灵活性。本文是基于半参数模型中单指标模型(SIM)进行研究。Fri edman等人在研究投影追踪问题时首次提出单指标模型。通过单指标模型将多维解释变量通过线性变换投影至一维单指标变量上,从而降低了数据维度。单指标模型是一种重要的半参数模型,它是处理多元非参数回归问题的有力工具。由于它将一个多元向量转化为一个单指标参数,具有降维的作用,不仅回避了多元非参数回归中的维数诅咒(curse ofdimensionality),而且抓住了高维数据的重要特征。本文基于单指标模型,首次提出三次多项式单指标模型(CP-SIM)。该模型的灵感来源于魏尔施特拉斯逼近定理(Stone-Weierstrass theorem)。由于一般的单指标模型在估计参数部分β与非参数部分f(.)时,由于参数估计的最优收敛速度高于非参数最优收敛速度,部分采取通过充分性降维方法(SDR)获得β的估计值,再将其带回初始模型,通过核密度估计等方法获取f(.)。在估计f(.)过程中往往需要涉及调参环节,并且容易扩大估计误差。我们基于魏尔施特拉斯逼近定理中闭区间上的连续函数可用多项式级数一致逼近。想通过多项式逼近原理近似连接函数,在一定程度上避免了传统单指标模型在估计连接函数时产生的误差。本文主要讨论连接函数为三次多项式形式的单指标模型,未来研究可拓展成n次多项式情形。通过观察我们所提出的三次多项式单指标模型的模型结构,我们可知模型中除了涉及传统单指标模型的的参数β外,还包含三次多项式的系数。并且我们的参数β不仅存在于一次项中,在二次项,三次项均有出现,这也使得β的估计难度增加。为了简化我们的模型形式,我们通过变量替换,最终将我们的模型化成一个线性模型的矩阵形式。联想到传统线性模型估计参数的最小二乘估计方法,我们可将三次多项式系数向量α的估计值用含有参数β的最小二乘估计值表示。假定α已知的情况下,参数β的估计问题被我们转化为非线性约束的最优化问题。通过求解该问题,得到β的估计值。此处为了求解非线性约束的最优化问题,我们采取了基于K-T(Kuhn-Tucker)方程解的高效处理方法。整个步骤由MATLAB中“fmincon”实现。由此上述步骤我们便得到了三次多项式单指标模型中所含参数的估计值。基于三次多项式单指标模型,为了评价我们给出的相应参数估计方法具有一定的优越性与实用性。在文章第三部分,我们进行了数值模拟。该部分将我们所提出的估计方法与切片逆回归(slice inverse regression),切片平均方差估计(sliced average variance estimate),最小平均方差估计(minimum average(conditional)variance estimation),基于条件密度函数的最小方差估计(minimum average(conditional)variance estimation based on the conditional density functions),方向回归(directional regression)进行对比分析。除此之外我们还设置不同的样本大小及其参数维度进行双重对比分析。从三次多项式单指标模型中参数β的估计误差效果来看,即便随着样本量的增多,还是参数中涉及协变量个数的增加,我们所提出的方法都具有不同程度的领先。除此之外,我们还将我们所提出的方法应用于北美车辆数据以及波士顿房价数据的分析中。我们对两组数据进行了类似的处理步骤。第一步先将数据集分割成训练集和测试集。为了更好的解释,所有变量都各自标准化。基于训练集,我们使用在数值模拟中的六种方法获得对应的参数β估计值。根据Y和βTX的二维关系图,我们可知两者之间并非是简单的线性关系。因此我们可以使用三次多项式单指标模型对数据进行拟合预测分析。结果表明,我们所提出的三次多项式单指标模型具有一定的实用性,并且我们所提出的估计方法,在预测效果上也领先于数值模拟对比的其余五种方法。总体而言,我们提出的三次多项式单指标模型,一定程度上避免了传统单指标模型中估计连接函数所产生的误差,并且给出的相关参数估计方法也具有一定的优越性与实用性。三次多项式单指标模型可以较好的解释现实中一些非线性的数据。但是我们的论文中还是有一些不足之处,需要后期研究进行补充。如所提出的三次多项式单指标模型中参数β的估计是否具有相合性,模型的稀疏性讨论。由于“fmincon”具有一定的局限性,是否可以使用更加优越的解决非线性约束优化问题的算法。我们估计参数时,是先将α表示成一个含有参数β的最小二乘形式,然后再将带回估计参数β的非线性最优化问题中,这样在一定程度上对参数α有所牺牲,是否可以构造一个同时估计两者的方法,能否将我们的三次多项式单指标模型进行推广至n次多项式单指标模型,并且给出估计次数n的方法等。
其他文献
金属氰化物/异氰化物和加氢金属氰化物/异氰化物是星际空间中重要的金属载体。对于低周期14族元素(X=C/Si/Ge)的氰化物/异氰化物和加氢氰化物/加氢异氰化物,已经在理论或实验上有相关研究报道。但是,对于锡(Sn)和铅(Pb)的类似物,却没有相关的报道。本论文中首次在CCSD(T)/def2-QZVPP//B3LYP/def2-QZVPP水平下对[X,C,N]和[H,X,C,N](X=Sn/Pb
基于分解的多目标进化算法(MOEA,Multi-objective Optimization Evolutionary Algorithm)在多目标优化领域获得了越来越广泛的关注与研究。很多研究已经验证了基于分解的多目标进化算法的性能,但是其仍然存在一些问题。比如其对帕累托前沿的形状比较敏感,在处理具有复杂帕累托前沿的多目标优化问题时往往会出现解集分布不均,无法覆盖整个帕累托前沿的现象。本文针对这
医学诊疗技术自动化是诊疗技术的发展趋势。病理切片染色机作为癌症确诊必不可少的诊疗措施,现阶段其自动化程度还很低。本文的重点在于研究一种高精度、高效率、低成本的应用于病理切片染色机的机械手控制系统。本文在分析病理切片染色机研发需求的基础上,研究了病理切片染色机中的机械手的结构形式和控制方式,并根据三轴机械手的运行特点,设计控制系统的整体框架。本文的机械手控制系统设计可分为控制系统的硬件设计和软件设计
随着微纳米流体器件的快速发展,液滴被整流以实现优异功能的研究取得了广泛地进展。液滴定向驱动的原理可应用于液滴整流器的开发。使得液滴整流器产生足够的驱动力,并且在不
随着经济与城市化的发展,各行各业的快速发展,我国的水体污染越来越严重,也越来越受到人们的重视。污染监测是环境保护中的一个内容,而水污染源监测是污染监测中的一个重要内
光探测器作为重要的光电子器件之一,能够将光信号转换为电信号,已经应用于生活的各个方面,从而备受人们的关注。当前随着经济的不断发展,人们对便携化、一体化、健康化的可穿
近年来,机动车和驾驶人数量的增加对人们的生产生活产生极大影响,人们也越来越重视随之产生的道路拥堵、环境污染等问题,尤其更为重视带来巨大人员伤亡和财产损失的频发的交通事故。现如今,车辆的跟车行为成为城市道路上最常见的交通现象之一,研究相邻车辆行驶规律引起了众多研究者的兴趣,研究在跟车工况下两车之间参数分布是如何相互影响以及对两车参数相互影响进行量化,将对提高跟车行驶的安全性以及跟车模型的建立提供参考
目前,我国石油需求稳步增加,而常规石油资源越来越少,开发难度不断加大,对国家能源安全产生了极大的威胁。我国致密油的储量丰富,使它成为石油领域重要的接替能源,加快推进致
网络技术的不断革新,越来越多的互联网产品成为人们日常生活的必须品,例如Twitter、微博、亚马逊商城等。这些产品不仅服务用户,也是数据产生的良好平台。对这些平台产生的文本数据进行情感分析有利于理解大众想法,帮助商家优化产品,控制舆论导向等,情感分析技术已经被应用到了学术和工业界的各个。尽管如此,评论情感分类仍然是一个挑战,因为评论无长度限制,评论中包含着大量噪声数据,长度不受限,且无任何情感标签
染料废水对水生生物、生态和人类健康构成了严重威胁。与传统处理技术相比,生物吸附技术因其成本低、操作简便和效率高被认为是最具潜在价值的处理方法。羧甲基壳聚糖(CMCTS)