论文部分内容阅读
统计学方法被广泛用于自然、经济、社会、科学技术等领域的研究中。作为有效的数据分析方法之一,它不仅可以挖掘有效信息,找到事物发展的潜在规律,还能给出相应的科学理论依据。随着统计学应用领域的不断推进,我们面临着复杂多样的数据类型,传统的统计法面临着越来越多的挑战。本文对高维情况下几类复杂数据的统计法展开了进一步的研究,并将这些统计法运用到实际问题中。主要研究内容如下:(1)研究了高维非负数据矩阵分解中如何确定因子数目的问题。自非负矩阵分解被提出后,关于非负矩阵分解问题的研究已经比较全面。正确指定因子数量是成功使用非负矩阵分解的关键,然而采用完全数据驱动(fully data-driven)方法来确定非负矩阵分解过程中的因子数目的方法在文献中至今尚未被提出。为此,我们基于交叉验证(cross-validation,CV)方法,提出一种完全数据驱动类型的因子数确定方法——两次交叉验证法(twice cross-validation,TCV)。该方法是将CV方法首先用于观测值,然后将CV方再次应用于观测值的变量中。与现有的确定因子数目的信息准则,面板准则相比,我们的方法不仅没有参数调整的影响,而且计算简便。因此TCV方法对复杂的非负矩阵分解模型也是有效的。模拟实验表明本文所提的两次交叉验证方法在很多情况下都可以找到合适的因子数目。最后我们将TCV方法应用到新加坡空气污染物的源解析问题中,确定的因子(主要污染源)都可以找到合理的解释。(2)研究了带有删失数据的分位数回归模型的降维问题。在因变量和删失变量都服从带有协变量的多指标结构的复杂情况下,本文首次研究了对生存时间和删失时间同时进行充分降维的问题。为了估计因变量和删失变量的充分降维空间及其联合充分降维空间,我们基于迭代和结构自适应方法提出了一种新的估计方法,并通过交叉验证方法给出了各自充分降维空间的维数,最后推导了它们的渐近性质。在模拟实验中我们比较了所提方法与经典的参数方法(如Cox比例风险回归模型)的估计效率。研究表明,在假设模型正确的情况下两种方法的估计效率一样好,否则我们的方法估计效率更好。将我们的方法应用于流行的原发性胆汁性肝硬化数据时,该方法不但给出了经典方法确认的患者生存时间的重要预测指标外,还将腹水这一指标标记出来。实践表明腹水确实是原发性胆汁性肝硬化后期的重要指标。然而,在之前的研究中都未发现这种相关关系。(3)研究了时间序列数据独立性的检验问题。非线性时间序列引起学者们的普遍关注,在非线性情况下基于序列的自相关系数来度量其相关问题的结果总是不尽人意。在本文中,我们将度量两个随机变量相互独立的非参数检验方法推广应用到时间序列数据中,定义了一种新的时间序列独立性检验量——复合决策系数(composite coefficient of determination)。该检验量的取值在0到1之间,当且仅当序列之间是独立时,值为0。由于该检验方法是分布自由的,且在单调变化下具有不变性,所以它对厚尾型分布和异常值具有稳健性,这对金融数据的分析是极其重要的。为了避免序列在两个不同的滞后系数下检验方法可能给出相反的结论,我们除了研究检验量在不同滞后系数下的检验效应,还讨论其混合检验量(portmanteau test)的检验效应。通过大量的仿真实验表明,我们的检验方法在独立的样本数据下都具有合理的检验水平。在非独立的样本下,我们的方法表现出更高的检验功效。最后将我们的方法应用到标准普尔500指数(S&P 500 index)中,分别检验了股票价格随机游走的假设和股票收益率的有效模型残差独立的假设。