大规模数据下子抽样模型平均估计理论

来源 :系统科学与数学 | 被引量 : 0次 | 上传用户:aiwuziji
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代的来临,如何从海量数据中快速、有效地挖掘有用信息是目前面临的新挑战.子抽样方法作为大规模数据分析的有效工具,已经受到国内外学者的广泛关注.不过,传统的子抽样方法通常没有考虑到模型的不确定性.当模型假设不正确时,后面的统计推断将会出现偏差,甚至导致错误的结论.为了解决该问题,文章利用频率模型平均的方法构建了子抽样模型平均估计(简称SSMA估计).理论上,文章证明了SSMA估计是全部数据下模型平均估计的一个渐近无偏且相合的估计.另外,我们基于Hansen (2007)的Mallows模型平均方法提出了SSMA估计的权重选择准则,并证明了方差已知和未知时权重估计的渐近最优性.在这些理论性质的研究中,文章同时考虑了模型和抽样设计带来的双重随机性.最后,数值分析进一步说明了所提出方法的有效性.
其他文献
随着能源商品金融化的不断加深,能源金融成为一个新兴的前沿领域,开始受到国内外学者的广泛关注.本文首次较全面地梳理了能源金融理论的发展脉络,从能源价格驱动因素、能源市场建模与预测、能源资产定价与套期保值、能源-商品-金融市场相关性、能源行业投融资以及能源公司金融六个方面描述了能源金融的研究进展,凝练出各方向的研究热点.进一步,本文提出了大数据能源金融、人工智能+能源金融以及能源金融与能源安全三个前沿研究方向.通过本文的梳理,对当前的能源金融理论与实证研究进行了系统的阐述,能够为推动能源金融理论的发展提供借鉴
抽样调查是研究如何从全体被调查对象(即总体)中抽取一部分(即样本),以及如何根据所得到的样本数据对总体的目标量进行推断的一个统计学分支,具有十分广泛的应用价值.在大数据时代,人们收集和存储数据的能力得到了极大提高,获取数据的技术手段不断更新,为抽样调查技术提供了更为广阔的发展空间.当前,大数据背景下抽样调查理论和技术如何演进,已成为新形势下学术界关注的焦点.为推动大数据时代抽样调查的研究和发展,展示该领域理论和应用的最新进展,促进同行之间的学术交流与合作,我们组织了“大数据背景下的抽样理论与质量管理”这期
期刊
电站与传动系统是半潜式平台电力的重要来源和主要输送通道.由于电站与传动系统构成复杂,且故障样本少,一般可靠性评估方法无法准确分析出其系统可靠性随时间的变化情况.提出一种结合状态转移抽样与BP神经网络的时变可靠性分析模型,通过状态转移抽样为BP神经网络的时变可靠性计算提供足够的训练数据,并以BP神经网络高效的学习能力提升状态转移抽样在复杂系统可靠性分析中的计算效率和精确度.以D90半潜平台为工程背景,收集整理了电站与传动系统的故障数据,通过该模型计算了系统的三项可靠性指标,并验证了在相同抽样间隔下该模型比单
大数据具有体量大、种类丰富、增长速度快等特点,同时也存在价值密度低、代表性差等问题,为抽样调查带来了机遇与挑战.大数据背景下的抽样如何适应新的变化、具有怎样的发展和应用?文章从三个角度进行了讨论.一是在数据流环境下产生了一些适应性强的新型抽样方法,能够高效、准确地获得有代表性样本,并兼顾存储空间、处理的时间与能力.二是借助网络开展调查或进行社交网络数据的收集,发展出一些无抽样框的非概率抽样方法,能够以低廉的成本在短时间内获得大量分析样本.三是综合大数据与抽样调查的优势,进行线上、线下调查数据的融合,文章针
作为最清洁的化石能源,天然气的使用越来越广泛.然而其价格波动将影响天然气行业的投资与需求、导致生产成本管理困难并影响能源政策的制定和经济增长等.因此,充分了解天然气的价格决定机制及未来波动趋势至关重要.研究利用动态贝叶斯网络模型(dynamic Bayesian network,DBN)研究Henry Hub天然气现货价格的波动机制并预测价格波动率.作为研究结果,建立了天然气现货价格形成机制的动态因果网络图,全面展示了驱动价格形成的直接因素与间接因素.预测结果给出了未来24个月天然气现货价格波动率的取值范
抽样调查在大数据时代仍是不可或缺的研究工具.然而,传统调查方式当前面临执行成本增加与数据质量降低的双重挑战.作为降低受访者负担的有效途径,问卷分割设计逐渐受到研究者重视.文章研究针对问卷分割设计中的子问卷分配过程展开讨论:在假设受访者招募服从泊松过程前提下,以降低协变量的子样本间差异为目标设计成组序贯随机过程.理论和数值分析显示该过程相较现有随机化方法具有优良的表现,可以更好地平衡子样本间协变量差异并提高估计量的估计精度.
随着大数据时代的来临,为了提高计算效率,Wang等(2018)提出基于logistic回归的最优子抽样算法,在保证参数估计精度的前提下,节省了大量的运算时间.为解决变量间的多重共线性,文章提出基于岭回归模型的最优子抽样算法,并证明岭回归模型中参数估计的一致性与渐近正态性.利用数值模拟与实证分析对最优子抽样算法进行评估,结果表明,利用最优子抽样构建的模型与全样本构建的模型在参数估计的精度相近,并大幅减少了运算时间.
大数据背景下,将受访者驱动抽样(RDS)用于网络抽样调查,解决了传统抽样调查难以获得可用抽样框、难以接触被调查者以及难以获得回答等问题,也使得网络调查可以实现概率抽样,得到一定误差范围内的总体参数估计.然而,在实际抽样过程中,同质性问题(即样本单元在推荐同伴时倾向于推荐那些与自己有相同属性的同伴)会导致RDS估计量的方差增大.为解决该问题,文章假定目标总体服从度修正随机块模型(DCSBM),利用区块间的经验转移概率对样本进行区块的事后分层,提出了事后分层与逆概率加权相结合的PS-IPW估计量.通过模拟不同
大数据背景下,对于抽样调查的必要性和重要性,目前还存在一定争论.文章定义了两种类型的大数据场景,一种是现有数据量海量的情况;另一种是现有抽样框名录海量的情况.对于抽样框名录海量的情况下,抽样调查既必要又重要.文章基于某平台类企业的海量抽样框名录,对该平台类企业关心的问题采用目录抽样的方法进行抽样调查研究,并考虑了样本轮换情况下样本量分配、目标量估计与评估等问题,为今后其他类似的抽样调查应用提供一个有益的借鉴.
统计推断通常以置信度和误差两个指标衡量估计精度,但当置信度和误差其大小均不同时,估计量之间的精度比较将十分困难.文章提出了一个可广泛使用的无量纲精度指标,当估计误差不一,置信度也不一时,也能够进行精度比较.另从解释精度影响因素及其作用机制出发,发现了样本量确定公式与信息论之香农定理的逻辑一致性,并借此给出了关于样本量确定公式物理意义的一个新视角下的解释.