论文部分内容阅读
因子模型假设相关的观测变量受少数几个潜在公因子的影响的一种统计模型.因子模型是多元统计分析的经典内容之一,而且己经应用到了很多学科领域,例如心理测量学,计量经济学,基因组学.然而,本质上,现用的因子模型使用起来有很强的局限性,仅适用于向量类型的数据,即要求个体数据之间有独立性或不相关性或微弱的相关性.对于矩阵数据,因子模型应用起来会损失很多有用信息甚至出现错误.矩阵数据,大数据时代常见的数据类型,其行和列分别表示一类变量(这两类变量可相同也可不同),甚至矩阵中的每个元素都表示一个变量,用传统的因子模型进行分析,要假设不相关性,所以会损失至少一半的信息.为此,我们提出了一种推广的,专门适用于矩阵数据的因子模型——双向因子模型(two-way factor model,简记为2wFM).我们的模型可以分别独立地提取矩阵数据中行和列的潜变量(公因子)信息.而且,对于无重复的高维数据矩阵,我们的方法也可以很有效地提取行和列的公因子信息.本论文主要关注双向因子模型的参数估计和推断问题.我们研究了参数的极大似然估计方法和参数极大似然估计的大样本性质.对于参数的估计方法,我们在双向因子模型的模型假设下,得到了参数的极大似然估计,对于将X按列拉直后,vec(X)的协方差阵,记为∑x,因为协方差阵有特殊的结构,所以对数似然函数的解析表达式就比较难写出来,在此,在参数的可识别条件下,我们推广了现有的计算一个协方差阵逆的结论,从而得到了∑X-1和|∑x|的精确表达式,从而得到解析的对数似然函数.基于似然函数,我们提出了一种分块优化因子载荷参数和方差参数的方法来计算每个参数的极大似然估计.对于参数的大样本性质,在较为宽泛的条件下,我们得到了每个参数估计的相合性和渐近分布(中心极限定理).在我们证明过程中,我们遇到了前所未有的难点,行因子载荷和列因子得分交互在一起,列因子载荷和行因子得分交互在一起,而且在没有重复样本矩阵的情况下,这个境况就变得更加困难了.再加上其他与载荷估计有关的未知项,使得我们关心的大样本结论,很难直接得到.基于似然函数和极大似然估计,上述难点促使我们深入研究了得到极大似然估计的优化问题,最终得到了理想的结论.最终的渐近分布与经典因子模型的结论,有很大的不同.行因子载荷的渐近方差不仅与行因子方差有关,而且还与行和列因子方差的距离有关,距离越近,渐近方差越大;距离越远,渐近方差越小.列因子载荷的渐近方差也有同样的现象.我们也通过模拟,验证了这个很有意思的现象.本文的研究在参数估计方法,统计理论性质和应用方面都有所突破.在参数估计方面,我们给出了一种相合的初值选取办法和一种分块迭代的优化策略,从而很快得到极大似然估计;在统计理论方面,对于因子模型的极大似然估计的大样本性质,我们提出一种与以往不同的,具有启发性的全新证明思路和方法;在应用方面,基于我们的模型,我们可以同时估计行和列的因子效应,我们分析了一个空气污染的数据,得到了很多有意思的结论.