论文部分内容阅读
统计学是一门认识世界的方法学。在当今信息社会中,人们很容易得到大量的数据,如何分析海量的数据,是许多领域的科学家都关心的问题。面对数据中存在的许多随机的噪音等不确定因素,基于随机理论的统计学,显然能够在该领域发挥重要的作用。
本文着重考虑数据挖掘的方法和理论,内容包括以下3个部分:
1.由部分识别整体的方法。本部分我们研究了由部分信息识别整体信息的方法。我们主要研究怎样从条件数据库识别联合概率分布。我们首次提出了从条件数据库识别联合概率分布的方法。每个条件数据库仅包含着条件分布的信息,因为缺少边缘分布的信息,所以是不完整的信息。我们给出使得完整的信息一联合概率分布可识别的充分条件。当这个条件满足的时候,我们使用EM算法估计联合概率分布。当有更多的先验信息知道的时候,识别联合概率变得更加容易,仅仅需要少量的数据库,就可以识别联合概率。当有先验信息的时候,我们给出了,使得联合概率分布可以从条件数据库识别的充分条件。
2.基于总体干预的因果推断。因果推断是数据挖掘中的一个大问题。其目的是通过数据得到各个因素之间的因果关系,或者得到某个因素对另一因素的因果作用的大小的估计。当混杂因素存在的时候,传统的通过回归的方法得到的估计不再是因果作用的相合估计。在这样的情况下,工具变量的引入可以得到相合的因果作用的估计。然而,在实际应用中,工具变量的应用或许会有一些问题。第一,工具变量针对连续变量的线性模型是有效的,对于离散变量,特别是二值变量怎么样呢?第二,在实际应用中,很难找到合适的工具变量。在这一部分,我们提出了总体干预的方法,进行因果推断。我们指出,总体干预的方法更可行。我们分析总体干预和工具变量之间的关系,并指出,使用总体干预的方法,可以构造出一个工具变量,而不需要寻找工具变量。我们对工具变量方法做了进一步的分析,当处理变量和响应变量都是连续变量的时候,对于线性和更一般的模型,我们讨论了使用工具变量时,因果作用的可识别性。这些结果扩充了人们对于工具变量的认识,使得工具变量不仅仅对于线性模型适用。我们也讨论了多项式模型,指出在多项式模型下,可以使用总体干预的方法识别因果作用,在该模型下,因果作用的估计不再是传统的工具变量估计。当处理变量和响应变量是二值的时候,我们指出使用工具变量不可识别因果作用,即使拥有很强的假设,例如假设模型是Logistic回归模型,因果作用仍然不可识别。对于该离散情形,我们提出一个新的概念,称为“符号可识别”。我们证明了在Logistic回归模型下,虽然因果作用是不可识别的,但是因果作用是“符号可识别”的。
3.变量选择方法的统计学特性。针对海量数据,如何从海量的、复杂的因素中,筛选出少量的、重要的因素是数据挖掘中另一个重要的课题。目前已经有许多方法可以使用。传统的AIC、BIC等方法也可以做变量选择,但是针对海量的变量,这两个方法计算复杂,耗时耗力,是不可行的。目前Lasso和Elastic Net是广泛使用的方法。近年来,对这些方法的统计学特性的研究越来越多,但是对于高维数据下,Elastic Net的模型选择性质,人们知之甚少,是一个空白。本部分,我们给出高维数据下,Elastic net估计的渐近性分析,填补了这块空白。