论文部分内容阅读
因果推断是一门建立在统计学科基础上发展起来的专门用于研究事物间因果关系的学科.近代自然科学诞生后,越来越多的科学家提出了各自对“因”和“果”的理解,从Laplace的“决定论因果观”到Hume的“经验论因果观”,期间经过了不断演变与融合,至今形成了如今被大众广泛接受的“概率论因果观”.作为以量子理论和概率论为基础发展起来的一门科学,因果推断自诞生以来就被广泛应用于社会科学各领域,如教育研究、行为研究、心理测量学、经济计量学、社会学及流行病学和生物统计学等.如统计推断常遇到的数据一样,因果推断涉及到的数据也是复杂多样的,通常有高维和低维、线性和非线性或部分线性、连续型和离散型以及缺失和完全数据等等.随着数据类型的不同,使用的因果推断方法也不一样,从一开始的基于贝叶斯条件概率的无模型因果推断,到后来的含噪声项的有模型因果推断,再发展到如今的各种关于复杂数据的因果推断.在现有的有模型的因果推断研究中,主要是以线性回归模型和非线性回归模型这两种模型为研究对象探索其因果机制.鉴于实际数据常常不是完全的线性或者非线性关系,如果仍用线性模型或非线性模型来对它们的因果关系进行探索,将可能得到错误的结论,应采用两者的“混合”——部分线性回归模型.然而,到目前为止,还未有针对部分线性模型做因果推断的相关研究,因此本文着眼于研究部分线性模型的因果推断,以期能在更多的领域中实现因果推断的价值.本文对国内外相关问题和线性、非线性、部分线性模型的研究历史与现状进行了综合评述,针对现有的线性模型和非线性模型的因果推断理论做了简要的概述.在此基础上,提出了基于部分线性核化迹方法的部分线性模型的因果推断方法.该方法主要分为两个步骤:第一是通过运用再生核希尔伯特空间理论和基于罚函数的Profile局部最小二乘方法,估计部分线性模型的未知非线性函数和未知参数矩阵;第二是建立适用于部分线性模型的因果判断准则,以便可以通过该准则来确定部分线性数据的因果关系.为能够将该方法广泛地运用于各个学科领域,本文还提出了针对离散型数据的部分线性因果推断方法并加以实例验证.随后进行统计模拟分析,验证本文所提出方法的合理性.并就一些重要定理给出具体的证明.本文最后应用所提方法进行了实证研究,进行单灶性乳头状甲状腺癌转移的成因分析.在此项案例研究里,考虑到数据的病理变量具有较高维度,且响应变量(癌转移)是离散型变量,故在对甲状腺癌数据进行部分线性因果分析前,进行了数据降维、相关性诊断、癌转移变量的连续化处理、变量连续化的验证等工作,在保证癌转移变量连续化的合理性的前提下,继续对经过连续化后的新变量和降维后的病理变量采用部分线性模型核化迹方法进行因果分析.在这个过程中,相关性诊断是为了说明相关关系和因果关系的不同,实际情况说明详见后文.最后对全文做了一个简要的总结以及指出了未来可以进一步研究的方向.模拟分析和实证研究结果显示,本文提出的部分线性模型的因果推断算法——部分线性模型核化迹方法,以及基于线性判别分析基础上的离散变量连续化方法能够合理地对不同领域的数据进行因果分析.本文的方法具有以下几个优点,第一,不限维度,低维和高维都适用;第二,不限变量的类型,离散和连续都适用;第三,该方法适用于具有部分线性关系的数据.