几类常用非线性回归分析中最优模型的构建与SAS智能化实现

来源 :中国人民解放军军事医学科学院 | 被引量 : 57次 | 上传用户:zhuyun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
【目的】针对几类常用的一重和多重非线性回归分析在具体使用中存在的难以克服的障碍,探索相应的解决方法,以获得拟合实际资料效果最好的回归模型,从而促进几类非线性回归分析在理论和方法上的进一步完善,并提升使用时的可操作性和智能化水平,以利于其推广和应用。【内容】本研究涉及的非线性回归分析可分为固定模式和非固定模式的非线性回归分析两大类。固定模式是指原因变量和模型结构均已确定,非固定模式是指仅模型结构确定,而原因变量尚未确定。根据资料是否含有层级结构,非固定模式的非线性回归分析又可细分为两型:非固定模式的单水平与多水平非线性回归分析。本研究中涉及的固定模式的非线性回归分析,包括多项型指数曲线类模型、S型生长曲线类模型和产量-密度曲线类模型。这些模型在实际应用中使用频率较高,但模型结构较为复杂,待估计参数较多,现有的诸多分析方法虽然也能拟合出曲线模型,但模型对资料的拟合精度远不及非线性最小二乘法拟合的效果。然而,运用非线性最小二乘法实际求解时,多基于迭代算法,它要求使用者在迭代开始前提供较为接近真实参数的初估值,否则可能无法获得收敛的结果,或者所得模型为局部最优模型而非全局最优模型。所以,如何快速得到精确的、全局最优的曲线模型,是非常值得研究的一项内容。另外,每一类曲线模型,往往不止一种,以产量-密度曲线类模型为例,它包括Bleasdale-Nelder曲线、Halliday曲线、Farazdaghi-Harris曲线等。在处理实际问题时,如何从多种曲线模型中选出最适合实际资料的那一模型,也需要作深入研究。本研究中涉及的非固定模式的单水平非线性回归分析,包括二值结果变量、多值有序结果变量和多值名义结果变量定性资料的单水平非线性回归分析,以及计数资料的单水平非线性回归分析。这些分析方法都是在原因变量筛选的基础上,得到既精简度高又拟合度好的回归模型。然而,当前所能使用的主要变量筛选方法,包括前进法、后退法和逐步筛选法等,都在理论上存在一定程度的缺陷,无法保证所得回归模型即为最优模型。因此,提出或实现理论上最为完善的变量筛选方法是当前迫切需要解决的技术难题。另外,对于同一种资料,往往有多种回归分析方法可供使用,以二值结果变量的定性资料为例,可使用的非线性回归分析方法包括logistic回归分析、probit回归分析、互补双对数回归分析等。面对具体资料时,如何对这些回归分析方法进行比较研究,并为实际资料自动提供最好的、最适合的回归模型,也是需要重点研究的又一个技术难题。本研究中涉及的非固定模式的多水平非线性回归分析,包括二值结果变量、多值有序结果变量和多值名义结果变量定性资料的多水平非线性回归分析,以及计数资料的多水平非线性回归分析。这些分析模型不仅包含固定效应,还包含一些随机效应,此处暂将两类效应变量统称为效应项。在实际使用时,如何对这些效应项进行组合,构造一个最优的回归模型,当前并无较好的方法,多是基于人为确定,操作起来极为不便。所以,如何灵活构建效应项的最优组合,是此类回归分析亟待解决的一个技术难点。另外,与非固定模式的单水平非线性回归分析相似,同一资料有多种可用的回归分析方法时,如何确定哪种分析方法最适合给定的实际资料,也是一项重要的研究内容。再者,多水平模型分析的研究虽已如火如荼,但其模型求解的算法仍不够完善。实际使用时,应如何选择参数估计方法,并对其进行正确的假设检验,也需要作深入研究。本研究针对这些非线性回归分析在实际使用中存在的技术难点进行研究,并借助SAS软件的编程语言、高级编程技巧和相关过程,实现资料的智能化、自动化分析,为使用者直接提供最优的回归分析方法和分析结果。【方法】如何实现固定模式的非线性回归分析?本研究采用曲线直线化法加非线性最小二乘法的组合策略,即先以曲线直线化法为基础,计算得到模型中参数的初始值,再采用非线性最小二乘法得到拟合效果更好的曲线模型。在曲线直线化的过程中,有些较为简单的模型经过变量变换和数学推导,即可直接进行直线回归分析;有些复杂的模型不能直接进行曲线直线化,可以先选择一个或两个变化范围较小的参数,通过设置循环变量的方式使其按一定步长在较小的可能值域内变动,这样在每次循环中这些参数都将有具体的值,此时再对曲线模型进行数学推导和变量变换,即可进行直线回归分析。直线回归分析得到的参数估计值,经某些必要的计算后,就可以作为曲线模型中相应参数的初始值。当然,在曲线直线化的过程中,如果对某些参数设置了多个可能的取值,必然会得到较多的初始值组合,进而会得到多个局部最优模型,此时可从中选出拟合效果最好的那个模型作为全局最优模型,这样可以有效地破解局部最优解的难题。如何实现非固定模式的单水平非线性回归分析?本研究采用了完全意义上的“最优子集法”来解决常规变量筛选方法存在的理论缺陷。当前某些大型统计软件也提供了最优子集法,但仅仅能给出各种原因变量组合情形下模型对资料的拟合效果统计量的值,并未涉及模型中参数估计的结果和假设检验的结果,更未直接给出最优模型,只是提供了含各种数量原因变量的“最优子集”,而最优模型中原因变量的数目仍需由使用者确定。具体来说,本研究考虑在各种原因变量组合情形下,均进行相应模型的构建和统计分析,然后从模型精简程度和拟合优度两方面,选出一个最优模型。如何实现非固定模式的多水平非线性回归分析?一般统计软件都未提供效应项的筛选方法,只能依靠使用者采用手工法人为调整模型,操作起来非常不便。本研究同样采用完全意义上的“最优子集法”来选择最优模型,即先以固定效应项和随机效应项进行全面组合,然后在每种组合情形下,均进行多水平非线性回归分析,最后从众多模型中,选择拟合效果最好的那个模型作为全局最优模型。当然,对于某些类型的资料,分析时还需考虑分析方法的应用前提条件不满足时如何处理。对于同类中的多种非线性模型选择问题,可依据模型的类型和参数估计方法选择相应的拟合优度评价统计量,对各模型的拟合效果进行比较,选择拟合效果最好的那个回归模型作为最优模型。以上方法,具体实现时,可借助SAS软件的编程语言及相应过程,如进行最优子集法分析时,可借助REG、LOGISTIC等过程产生固定效应的全面组合情形,多水平模型分析时,还需借助FACTEX等过程产生随机效应的全面组合。【结果】本研究对各类非线性回归分析的现有分析策略、计算方法和实现途径在实际应用中存在的问题和不足进行改进,有针对性地提出了相应最优模型的选择策略,并通过编写大量的SAS程序,将这些策略付诸实施,最后以最直观、最简洁和最适用的形式呈现出来。详细来说,论文的研究结果和主要创新点包括以下四个方面。⑴对三类固定模式的非线性回归分析进行了研究,摸索出了一套分析策略:即以变量变换和数学推导为基础,通过曲线直线化或分段曲线直线化的方式,得到曲线模型的参数初始值,然后借助相应的迭代算法完成非线性最小二乘法的精确拟合。这一策略可实现此类资料的快速、高效、精准拟合,且可行性、可操作性非常好。此外,本研究还解决了同类多种曲线模型拟合实际资料时的智能化选择问题,所编写的宏程序可以方便地调用以解决同类实际问题。⑵对四类非固定模式(含计数资料)的单水平非线性回归分析进行研究,以当前变量筛选方法中存在的理论困境和应用难题为突破口,实现了完全意义上的“最优子集法”,确保了所得的最终模型即为全局最优模型;同时解决了多种相近功能分析方法处理同一资料时,分析方法的拟合效果比较与智能化选择问题,有效地避免了使用者处理实际资料时在分析方法选择上的盲目性和不确定性。⑶对四类非固定模式(含计数资料)的多水平非线性回归分析进行研究,以完全意义上的“最优子集法”对效应项进行了全面组合,在拟合效果比较的基础上,自动化地给出了最优模型,破解了当前多水平模型分析时无法进行效应项筛选的难题。当然,也解决了多种相近功能分析方法处理同一资料时,分析方法的拟合效果比较与智能化选择问题,所编写的宏程序可以方便地被调用以解决同类实际问题。⑷探索出了一条基于SAS9.2版(之前版本无效)软件进行多水平非线性回归分析时参数估计方法的选择与调整策略,即需要估计的效应项参数较少时,可直接调用操作较为方便的GLIMMIX过程,使用数值积分近似法进行参数估计,但须在假设检验时对自由度进行调整;若需要估计的效应项较多,尤其是随机效应项较多时,直接使用GLIMMIX过程中的数值积分近似法往往无法得到收敛的结果,可先使用GLIMMIX过程中的线性化法得到参数的近似精确估计值,然后以此为初始值,再使用NLMIXED过程中的数值积分近似法作精确估计。关于GLIMMIX过程,它是SAS软件近年来力推的新过程,与使用极其繁杂的NLMIXED过程相比,具有操作简便的特点,不过该过程虽经多年丰富和发展,但至今仍未能尽善尽美,其不足之处在于:一是未提供随机效应的假设检验结果,二是固定效应的假设检验结果也不准确。使用数值积分近似法时,两过程仅因计算精度不同导致GLIMMIX过程输出的参数值及标准误的估计结果与NLMIXED过程存在非常微小的差异,但GLIMMIX过程的重大缺陷在于其对随机效应未输出自由度,对固定效应虽输出了自由度但却是错误的,故GLIMMIX过程输出的假设检验结果不能直接被采用,须在假设检验时对效应项的自由度进行调整,从而得到准确的概率值。以上策略,以调用GLIMMIX过程并对假设检验结果稍作调整为主,特殊情形下辅用NLMIXED过程,外加相应的编程,可直接或近似直接地获得最优模型的精确估计,这极大地节省了人工调整模型时的工作量和因人而异的不确定性,相对于王济川等人提出的解决类似问题的策略不仅简化了很大的工作量,而且能够较为方便地实现以最优子集法筛选效应项并通过编程直接获得最终结果的目的。【结论】本论文以非线性回归分析为主要研究内容,对实际使用中存在的诸多瓶颈问题、不足和不便之处,进行了探索性的实践,并获得了令人满意的结果。在进行固定模式的非线性回归分析时,摸索出了一套高效的分析策略。这一分析策略在解决三类固定模式的非线性回归分析时,被证明是行之有效的。该策略既可快速便捷地获得参数的估计值,还可得到较传统分析方法拟合效果更优的曲线回归模型,且对其他固定模式的非线性回归分析具有一定参考和借鉴意义。在进行非固定模式的非线性回归分析时,以完全意义上的“最优子集法”进行原因变量或效应项的筛选,得到对实际资料拟合效果最好的回归模型。这一分析策略,不但避免了常用变量筛选方法在理论上的先天缺陷,也弥补了统计软件中所谓“最优子集法”在应用上的后天不足,可以方便快捷且准确可靠地为使用者提供最优的回归模型。此外,多种相近功能非线性回归分析方法联用,在理论和技术层面上给出获得最优分析结果的策略、借助SAS系统并加以深层次开发和巧妙利用,使灵活而又复杂的计算策略得以准确完整地实现,在当前众多分析方法孰优孰劣或适用场合不明以及统计软件智能化水平低下的情况下,不失为一个大胆而成功的尝试。当前的统计研究发展迅速,往往是多种分析方法均可实现同一分析目的,较之随意选用其中的某种分析方法,该策略所得结果能更好地诠释资料的内在规律性。
其他文献
配位氢化物材料储氢是近年来学术界研究的热点.对目前正在研究的三类主要配位氢化物的热力学性质,动力学性质,含氢量,吸放氢过程,以及各种材料的优缺点都作了阐述和比较.
<正> 葵花盘粉是一种营养丰富的饲料,以风干物计算:粗蛋白9%、粗脂肪6.5%、灰分10.1%、粗纤维17.7%、无氮浸出物48.9%,葵花盘粉不但可以喂猪,而且还可以喂牛和羊。目前,我县葵花盘
政党政治是当今世界各国政治形式的普遍现象,政党政治既是一种顺应民主潮流的政治方式,也是需要不断完善的政治实践。政党政治的有效运行离不开一系列制度规范的保障,政党法
<正>2013年1月23日,笔者来到山东寿光蔬菜种业集团育种繁育基地,在成果展示大棚内,"中寿11-3"及"中寿180"番茄新品种已挂果,红彤彤的让人垂涎欲滴。据工作人员介绍,由山东寿
人工机械瓣功能障碍是心脏瓣膜置换术中较为严重的一种并发症。按临床特点可分为急性和慢性两种类型[1]。急性机械瓣功能障碍发病突然,病情凶险,有急诊手术的指征,一旦确诊,
内陆湖泊是气候变化敏感的指示器, 高山湖泊处于自然状态, 受人类活动影响较小, 能够较真实地反映气候状况, 而内陆河尾闾湖变化是自然和人类活动共同作用的结果. 利用NOAA/A
伴随着船舶运输事业的兴起与发展,各类海难事故时有发生,脱险通道的设置及其工况关系到船上人员能否安全迅速撤离。国际公约和国内规范正在不断完善条款以满足船舶为船上人员
随着科学技术的进步,蔬菜大棚温控技术越来越完善,其在实践中起到的作用越来越大,通过对蔬菜大棚的温控系统的设计以及其在应用中需要注意的问题进行了分析,旨在帮助更多需要
目的分析宁夏全区无偿献血者HIV感染情况及流行趋势,为进一步保障血液安全、降低输血风险、招募低危献血者提供依据。方法对2008-2017年宁夏全区593 895名无偿献血者进行抗-H
本文运用了文献法与访谈法,研究中北大学自创建以来逐步形成其特色的大学精神—太行精神。通过对中北大学太行精神的研究为地方性工科大学培育特色化大学精神提供一个鲜活的