论文部分内容阅读
回归分析是利用最小平方法确定自变数与依变数之间数量化关系的统计分析方法,并对目标变数作出数值分析和预测。相比其它统计分析方法而言,有更悠久的历史,由于其应用的假定条件大多能够得到满足,统计推断的基础牢固,故结论也较为可信。线性回归分析的应用非常广泛,求算过程简单,容易为大多数使用者掌握,现有统计软件包使各种回归方法计算十分方便。然而,在科学研究的许多领域,例如农学、生物学、化工学等,自变量与依变量之间的关系并非仅是线性,还可能存在幂响应和互作效应等;自变量之间还可能存在多重共线性,较大程度影响回归分析的结果。这是多元线性回归分析中普遍存在的现象,出现以上问题时,利用最小平方法无法或不能准确估计回归参数。在做具体科研试验特别是医学实验和工业试验时,由于经费、试验条件等方面的限制,还有可能出现考察自变量个数大于甚至远远大于试验次数的情况,即超饱和模型的问题。针对实际运用中回归分析可能存在的各种复杂情形,至今已提出不少解决各类问题的方法,有处理多重共线性提出的方法和处理超饱和模型的方法。本文对处理多重共线性和处理超饱和模型的一些较常用的方法进行总结介绍,分析各种方法的特点。多重共线性的概念提出较早,处理方法也较多,较常用的方法有岭回归,主成分回归,逐步回归和偏最小二乘回归等。处理超饱和模型的方法可归为两类,即变量筛选和缩减估计。变量筛选是一种降维的重要方法,有最优子集法和逐步回归法两类。筛选标准是变量筛选的关键问题之一。缩减估计是将所有选入变量的回归估计值向零缩减,而不是将不显著的变量从模型中剔除。顾世梁多年前提出的一种新的回归分析方法——筛选逐步回归,属于变量筛选。该方法不仅具有传统逐步回归分析的功效,而且适用于处理多重共线性和超饱和模型的分析。该方法对于回归参数的估计相当准确,而且该方法直观易懂,容易被使用者掌握。但是该方法也存在一些不足,在变量筛选的显著性标准等问题上还需进一步优化,提高算法程序的敏感度和特异度,同时也应缩短运算时间,提高运算效率。为了解决多元线性回归分析中存在的各种问题,得到更优化的参数估计,促进多元线性回归分析方法的广泛应用,本文对筛选逐步回归方法进行重点研究。新方法采用在基本自变数回归基础上逐一筛选其余自变数,并对已剔除的自变数进行多轮筛选过程,改变显著自变数项选入和剔除的标准,获得包含主要效应分量的优化回归方程。本文对于新算法基于MATLAB平台编制算法软件,以各种模拟和实例验证其统计功效。本研究采用了不同类型的数据,模拟了不同复杂程度的效应,用改良后的筛选逐步回归法进行回归分析,并与E-bayes、PENAL、SSVS以及Stepwise这4种常用算法进行了比较,回归检测值与真值比较接近,敏感度和特异度均较高。尤其是在自变数数目、效应复杂性和目标变数误差相对较大的情况下,这种优势表现得更加显著。