数据挖掘、因果推断和变量选择的方法和理论

来源 :北京大学 | 被引量 : 0次 | 上传用户:fencer_2000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
统计学是一门认识世界的方法学。在当今信息社会中,人们很容易得到大量的数据,如何分析海量的数据,是许多领域的科学家都关心的问题。面对数据中存在的许多随机的噪音等不确定因素,基于随机理论的统计学,显然能够在该领域发挥重要的作用。   本文着重考虑数据挖掘的方法和理论,内容包括以下3个部分:   1.由部分识别整体的方法。本部分我们研究了由部分信息识别整体信息的方法。我们主要研究怎样从条件数据库识别联合概率分布。我们首次提出了从条件数据库识别联合概率分布的方法。每个条件数据库仅包含着条件分布的信息,因为缺少边缘分布的信息,所以是不完整的信息。我们给出使得完整的信息一联合概率分布可识别的充分条件。当这个条件满足的时候,我们使用EM算法估计联合概率分布。当有更多的先验信息知道的时候,识别联合概率变得更加容易,仅仅需要少量的数据库,就可以识别联合概率。当有先验信息的时候,我们给出了,使得联合概率分布可以从条件数据库识别的充分条件。   2.基于总体干预的因果推断。因果推断是数据挖掘中的一个大问题。其目的是通过数据得到各个因素之间的因果关系,或者得到某个因素对另一因素的因果作用的大小的估计。当混杂因素存在的时候,传统的通过回归的方法得到的估计不再是因果作用的相合估计。在这样的情况下,工具变量的引入可以得到相合的因果作用的估计。然而,在实际应用中,工具变量的应用或许会有一些问题。第一,工具变量针对连续变量的线性模型是有效的,对于离散变量,特别是二值变量怎么样呢?第二,在实际应用中,很难找到合适的工具变量。在这一部分,我们提出了总体干预的方法,进行因果推断。我们指出,总体干预的方法更可行。我们分析总体干预和工具变量之间的关系,并指出,使用总体干预的方法,可以构造出一个工具变量,而不需要寻找工具变量。我们对工具变量方法做了进一步的分析,当处理变量和响应变量都是连续变量的时候,对于线性和更一般的模型,我们讨论了使用工具变量时,因果作用的可识别性。这些结果扩充了人们对于工具变量的认识,使得工具变量不仅仅对于线性模型适用。我们也讨论了多项式模型,指出在多项式模型下,可以使用总体干预的方法识别因果作用,在该模型下,因果作用的估计不再是传统的工具变量估计。当处理变量和响应变量是二值的时候,我们指出使用工具变量不可识别因果作用,即使拥有很强的假设,例如假设模型是Logistic回归模型,因果作用仍然不可识别。对于该离散情形,我们提出一个新的概念,称为“符号可识别”。我们证明了在Logistic回归模型下,虽然因果作用是不可识别的,但是因果作用是“符号可识别”的。   3.变量选择方法的统计学特性。针对海量数据,如何从海量的、复杂的因素中,筛选出少量的、重要的因素是数据挖掘中另一个重要的课题。目前已经有许多方法可以使用。传统的AIC、BIC等方法也可以做变量选择,但是针对海量的变量,这两个方法计算复杂,耗时耗力,是不可行的。目前Lasso和Elastic Net是广泛使用的方法。近年来,对这些方法的统计学特性的研究越来越多,但是对于高维数据下,Elastic Net的模型选择性质,人们知之甚少,是一个空白。本部分,我们给出高维数据下,Elastic net估计的渐近性分析,填补了这块空白。
其他文献
非线性回归模型是为了更准确地描述数据之间的联系而引入的较线性回归模型更广泛的一类模型,该模型可以用来描述生物医学、经济学、社会学、保险精算学、统计遗传学、物理学、
本文考虑了两台同型机上一类特殊的在线排序问题,即加工时间可控的在线排序。在这个问题中,工件的加工时间不是固定的常数,而是决策变量,排序者可以选择支付一定的费用而使工件的
叙述了煤与瓦斯突出复杂地质力学现象的一些问题。总结了捷克共和国在设计框架中解决该问题的综合技术措施。文章分下列问题进行叙述:(1)分析“斯大尔日奇”煤矿在发生煤与瓦
目前对慕课与传统教学的关系的研究,认识不足,成果不多.在对慕课进行简要介绍,并对融合模式进行定位基础上,阐述当前我国慕课教学存在的问题主要集中在慕课与传统教学关系认
将中式英语引入对外汉语教学中,一方面对于引导汉语学者们迅速进入学习状态,准确把握文化差异具有积极作用;另一方面对于改善当前中式英语受到“热捧”带来的汉字文化传统的
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
学位
在本文中,我们主要研究的是非参数回归方面的问题。我们研究了两部分内容。在第一部分中,我们研究了在样本数据满足强混合假设条件时的多元内部核估计量的强相合性质。在这部分
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
本文研究证券数据分类问题。基于K-MEANS、系统聚类算法和SOM神经网络算法,我们提出了一个对数据进行分类的KMHS算法,并应用该算法对上证50指数的成份股票进行了分类,结合实际应