论文部分内容阅读
随着电子计算技术的飞速发展和实验技术的不断提高,医学资料中经常出现包含较多自变量的大型回归问题。这时,由于自变量较多,难免自变量之间存在近似的线性关系,即自变量之间有多重共线性。为了解决这个问题,我们可以运用主成分回归(principal component regression PCR)的方法。但是,医学资料中常常会有存在异常点的情况,在这种情况下,异常点可从下面两个途径影响主成分回归模型的建立:(1)异常点影响了方差-协方差矩阵,从而影响了主成分的建立,所以经典主成分分析对异常点是十分敏感的。(2)最小二乘法的失效点为0,即只要有一个异常点就能破坏回归拟合度,所以主成分回归中的线性回归部分对异常点也是敏感的。因此异常点的诊断在进行主成分回归分析时是一个不可缺少的内容。本文从理论的角度,系统地论述了两种主成分回归中异常点的诊断方法和一种稳健主成分回归方法,即主成分回归(PCR)中二步诊断方法、基于MVT和LMS的稳健主成分回归的异常点诊断方法和将ROBPCA稳健主成分分析与LTS(least trimmed squares)稳健回归分析结合的稳健主成分回归方法。在二步诊断法和基于MVT和LMS的稳健主成分回归的异常点诊断方法对于各方法的基本原理及相应的诊断统计量进行了系统地论述,给出了根据统计量的值来作为异常点的判别依据的根据,而稳健主成分回归方法则不仅论述了建立稳健模型的基本原理和计算步骤,而且给出了异常点的诊断图。文中所收集的医学资料,在计算机上利用SAS 8.0软件和MATLAB 7.1软件进行编程分析,取得了较为满意的诊断结果与解释,同时对不同诊断方法进行比较,特别是将稳健主成分回归分析方法和经典的主成分回归方法进行比较,进一步说明了各个方法的优劣性及特点,较好地解决了主成分回归中的异常点诊断和处理的问题,为在医学研究中的应用提供了理论依据。可以预见,随着理论、算法及相应软件的进一步成熟,这些异常点的诊断方法和稳健主成分回归方法将得到更加广泛地应用。