几类复杂数据的统计方法研究及应用

来源 :电子科技大学 | 被引量 : 0次 | 上传用户：zhuguangpo123

【摘要】

：

统计学方法被广泛用于自然、经济、社会、科学技术等领域的研究中。作为有效的数据分析方法之一,它不仅可以挖掘有效信息,找到事物发展的潜在规律,还能给出相应的科学理论依

【作者】

：

晏梅

【出处】

：

电子科技大学

【发表日期】

：

2020年01期

【关键词】

：

高维数据非负数据删失数据时间序列数据统计方法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

统计学方法被广泛用于自然、经济、社会、科学技术等领域的研究中。作为有效的数据分析方法之一,它不仅可以挖掘有效信息,找到事物发展的潜在规律,还能给出相应的科学理论依据。随着统计学应用领域的不断推进,我们面临着复杂多样的数据类型,传统的统计法面临着越来越多的挑战。本文对高维情况下几类复杂数据的统计法展开了进一步的研究,并将这些统计法运用到实际问题中。主要研究内容如下:(1)研究了高维非负数据矩阵分解中如何确定因子数目的问题。自非负矩阵分解被提出后,关于非负矩阵分解问题的研究已经比较全面。正确指定因子数量是成功使用非负矩阵分解的关键,然而采用完全数据驱动(fully data-driven)方法来确定非负矩阵分解过程中的因子数目的方法在文献中至今尚未被提出。为此,我们基于交叉验证(cross-validation,CV)方法,提出一种完全数据驱动类型的因子数确定方法——两次交叉验证法(twice cross-validation,TCV)。该方法是将CV方法首先用于观测值,然后将CV方再次应用于观测值的变量中。与现有的确定因子数目的信息准则,面板准则相比,我们的方法不仅没有参数调整的影响,而且计算简便。因此TCV方法对复杂的非负矩阵分解模型也是有效的。模拟实验表明本文所提的两次交叉验证方法在很多情况下都可以找到合适的因子数目。最后我们将TCV方法应用到新加坡空气污染物的源解析问题中,确定的因子(主要污染源)都可以找到合理的解释。(2)研究了带有删失数据的分位数回归模型的降维问题。在因变量和删失变量都服从带有协变量的多指标结构的复杂情况下,本文首次研究了对生存时间和删失时间同时进行充分降维的问题。为了估计因变量和删失变量的充分降维空间及其联合充分降维空间,我们基于迭代和结构自适应方法提出了一种新的估计方法,并通过交叉验证方法给出了各自充分降维空间的维数,最后推导了它们的渐近性质。在模拟实验中我们比较了所提方法与经典的参数方法(如Cox比例风险回归模型)的估计效率。研究表明,在假设模型正确的情况下两种方法的估计效率一样好,否则我们的方法估计效率更好。将我们的方法应用于流行的原发性胆汁性肝硬化数据时,该方法不但给出了经典方法确认的患者生存时间的重要预测指标外,还将腹水这一指标标记出来。实践表明腹水确实是原发性胆汁性肝硬化后期的重要指标。然而,在之前的研究中都未发现这种相关关系。(3)研究了时间序列数据独立性的检验问题。非线性时间序列引起学者们的普遍关注,在非线性情况下基于序列的自相关系数来度量其相关问题的结果总是不尽人意。在本文中,我们将度量两个随机变量相互独立的非参数检验方法推广应用到时间序列数据中,定义了一种新的时间序列独立性检验量——复合决策系数(composite coefficient of determination)。该检验量的取值在0到1之间,当且仅当序列之间是独立时,值为0。由于该检验方法是分布自由的,且在单调变化下具有不变性,所以它对厚尾型分布和异常值具有稳健性,这对金融数据的分析是极其重要的。为了避免序列在两个不同的滞后系数下检验方法可能给出相反的结论,我们除了研究检验量在不同滞后系数下的检验效应,还讨论其混合检验量(portmanteau test)的检验效应。通过大量的仿真实验表明,我们的检验方法在独立的样本数据下都具有合理的检验水平。在非独立的样本下,我们的方法表现出更高的检验功效。最后将我们的方法应用到标准普尔500指数(S&P 500 index)中,分别检验了股票价格随机游走的假设和股票收益率的有效模型残差独立的假设。

其他文献

生态科技教育在中学实验室的探索与实践——以“生态浮岛”校本课程为例

生态科技教育是教授有关促进自然生态系统良性循环,优化自然生态系统结构的相关知识和技术,并通过实践,让学生掌握生态科技的技术和技能。广州外国语学校以市级科技教育项目

期刊

生态科技教育校本课程中学实验室生态浮岛

基于能耗模拟的精密空调温湿度协同优化控制

精密空调应用广泛,但在精密空调应用场所,空调系统能耗占场所总能耗的很大比例。为优化精密空调运行及节约能耗,建立基于能耗模拟的精密空调温湿度协同控制优化运行模型。采

期刊

能耗模拟精密空调协同优化控制理想点法遗传算法

大数据背景下加强高校统战工作信息化的思考

高校统战工作信息化是落实国家信息化发展战略的必然要求,是统战工作创新发展的时代诉求。新时期,在信息化社会的大数据背景下,提高对统战工作信息化的认识,充分发挥新媒体的

期刊

大数据高校统战工作信息化

可惜无声——以展览的方式思考齐白石的艺术

<正>齐白石人生近于百年,集中国艺术之大成。汇诗、书、画、印,山水、花鸟、人物,工笔、写意于一身,而无一不精作品之丰,更无出其右。然而,使其登上艺术之巅的核心是什么?齐

期刊

齐白石北京画院

高速铁路隧道施工风险管理要点分析与阐述

本文分析了高速铁路隧道施工风险管理的意义,阐述了高速铁路隧道施工中存在的而主要风险,提出了高速铁路隧道施工风险管理的工作要点,旨在通过有效的风险管理机制及措施,有效

期刊

高速铁路隧道施工风险管理要点

sTILs与PD-L1对三阴性乳腺癌新辅助化疗近期疗效的预测作用

目的:探讨肿瘤间质浸润淋巴细胞(sTILs)和细胞程序性死亡-配体1(PD-L1)对三阴性乳腺癌新辅助化疗近期疗效的预测价值。方法:纳入42名经穿刺病理活检确诊为三阴性乳腺癌并接受新辅助化疗的患者为研究对象。使用H-E染色法检测sTILs,免疫组化法检测PD-L1,分析新辅助化疗前后其在三阴性乳腺癌组织中的表达情况,按照RECIST 1.1版本评估新辅助化疗效果,统计学分析sTILs、PD-L1的

学位

三阴性乳腺癌肿瘤浸润淋巴细胞细胞程序性死亡-配体1预测指标新辅助化疗

柑橘主要病虫害的综合防治技术

柑橘是多地的主要经济作物,柑橘种植因此成为农民增收的重要渠道,但农户由于缺乏必要的病虫害防治知识,导致柑橘病虫害高发。柑橘病虫害发生的原因十分复杂,常见的原因包括施

期刊

柑橘病虫害综合防治

多媒体技术在中职英语教学中的应用

当前社会飞速发展，人才的培养也应紧跟时代潮流，不断进步完善，中职院校对于学生的培养也当如此。针对中职学生在英语学习中出现的问题，文章提出将多媒体技术运用到中职英语教学之

期刊

中职英语教学多媒体技术

地黄属分类学与系统学研究

地黄属(Rehmannia)目前记载共约6种,除作为常用中药的地黄(R.glutinosa)为东亚—日本分布外,均为我国特有植物。鉴于国内外研究偏重于地黄,疏于地黄属其它物种的现状,因此该

学位

地黄属分类学形态学解剖学分子系统学玄参科

同构整合方式下的饼干趣味包装设计

经济飞速发展的时代,国民消费的日益升级带来审美的升级,消费者对于包装的审美要求也日益提高。饼干作为休闲零食的一种,在当代许多人的生活中不可或缺。品质、风格趋于同质

学位

同构整合趣味性饼干包装设计

几类复杂数据的统计方法研究及应用

与本文相关的学术论文