大数据背景下平台类企业开展抽样调查的应用研究

来源 :系统科学与数学 | 被引量 : 0次 | 上传用户：Hzw_56

【摘要】

：

大数据背景下,对于抽样调查的必要性和重要性,目前还存在一定争论.文章定义了两种类型的大数据场景,一种是现有数据量海量的情况;另一种是现有抽样框名录海量的情况.对于抽样框名录海量的情况下,抽样调查既必要又重要.文章基于某平台类企业的海量抽样框名录,对该平台类企业关心的问题采用目录抽样的方法进行抽样调查研究,并考虑了样本轮换情况下样本量分配、目标量估计与评估等问题,为今后其他类似的抽样调查应用提供一个有益的借鉴.

【作者】

：

石峻驿

【机构】

：

北京师范大学统计学院,北京100875

【出处】

：

系统科学与数学

【发表日期】

：

2022年1期

【关键词】

：

大数据平台类企业抽样调查样本轮换

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

其他文献

人口总数估计:基于三系统估计量与比率估计量的组合方法

受多种因素影响,人口普查结果不可避免地偏离真实人口总数,如何构造一个统计性质优良,适用范围广的人口总数估计量,精准把握人口变动趋势是政府统计工作的重要议题.本文解读了英国统计局普查年人口总数估计的经验方法,据此提出三系统估计量与比率估计量组合的人口总数估计方法.模拟研究结果表明,在人口总体合理分层的基础上,新方法能较好地克服由于两系统不独立而引起的交互作用偏差问题,提高人口总数估计量的精度.同时,文章的研究也提出了“第三套人口统计数据资源”的建设思路,这既是构建和应用三系统估计量的数据基础,也有助于进一步

期刊

人口总数估计三系统估计量比率估计量捕获-再捕获-再捕获模型

上下游绿色研发模式对比分析及协调机制研究

传统的绿色供应链主要目的是应对已知和潜在的供应链环保风险,而通过上下游企业的绿色研发,可以创造新的价值,从而实现供应链的可持续发展.为对比分析供应链绿色研发模式对上下游经济效益的影响,基于一个零部件供应商和一个生产商构建博弈模型.基于此博弈模型,对比分析四种绿色研发模式(供应商单独绿色研发模式、生产商单独绿色研发模式、双方同时绿色研发模式和集中决策时绿色研发模式)对单位研发努力程度、单位产品零售价格、需求量和收益影响.研究主要得到:在集中决策时绿色研发模式下,单位绿色研发努力程度最大,双方同时绿色研发模

期刊

价值创造绿色研发供应链协调博弈模型

能源金融研究回顾与前沿方向探索

随着能源商品金融化的不断加深,能源金融成为一个新兴的前沿领域,开始受到国内外学者的广泛关注.本文首次较全面地梳理了能源金融理论的发展脉络,从能源价格驱动因素、能源市场建模与预测、能源资产定价与套期保值、能源-商品-金融市场相关性、能源行业投融资以及能源公司金融六个方面描述了能源金融的研究进展,凝练出各方向的研究热点.进一步,本文提出了大数据能源金融、人工智能+能源金融以及能源金融与能源安全三个前沿研究方向.通过本文的梳理,对当前的能源金融理论与实证研究进行了系统的阐述,能够为推动能源金融理论的发展提供借鉴

期刊

能源金融资产定价能源-商品-金融市场相关性能源行业投融资能源公司金融

专辑序言

抽样调查是研究如何从全体被调查对象(即总体)中抽取一部分(即样本),以及如何根据所得到的样本数据对总体的目标量进行推断的一个统计学分支,具有十分广泛的应用价值.在大数据时代,人们收集和存储数据的能力得到了极大提高,获取数据的技术手段不断更新,为抽样调查技术提供了更为广阔的发展空间.当前,大数据背景下抽样调查理论和技术如何演进,已成为新形势下学术界关注的焦点.为推动大数据时代抽样调查的研究和发展,展示该领域理论和应用的最新进展,促进同行之间的学术交流与合作,我们组织了“大数据背景下的抽样理论与质量管理”这期

期刊

基于状态转移抽样和BPNN的半潜式平台电站与传动系统可靠性分析

电站与传动系统是半潜式平台电力的重要来源和主要输送通道.由于电站与传动系统构成复杂,且故障样本少,一般可靠性评估方法无法准确分析出其系统可靠性随时间的变化情况.提出一种结合状态转移抽样与BP神经网络的时变可靠性分析模型,通过状态转移抽样为BP神经网络的时变可靠性计算提供足够的训练数据,并以BP神经网络高效的学习能力提升状态转移抽样在复杂系统可靠性分析中的计算效率和精确度.以D90半潜平台为工程背景,收集整理了电站与传动系统的故障数据,通过该模型计算了系统的三项可靠性指标,并验证了在相同抽样间隔下该模型比单

期刊

可靠性分析BP神经网络状态转移抽样电站与传动系统半潜式平台

大数据背景下的抽样调查

大数据具有体量大、种类丰富、增长速度快等特点,同时也存在价值密度低、代表性差等问题,为抽样调查带来了机遇与挑战.大数据背景下的抽样如何适应新的变化、具有怎样的发展和应用?文章从三个角度进行了讨论.一是在数据流环境下产生了一些适应性强的新型抽样方法,能够高效、准确地获得有代表性样本,并兼顾存储空间、处理的时间与能力.二是借助网络开展调查或进行社交网络数据的收集,发展出一些无抽样框的非概率抽样方法,能够以低廉的成本在短时间内获得大量分析样本.三是综合大数据与抽样调查的优势,进行线上、线下调查数据的融合,文章针

期刊

大数据抽样调查数据流非概率抽样数据融合

北美天然气现货价格波动机制分析及波动率预测

作为最清洁的化石能源,天然气的使用越来越广泛.然而其价格波动将影响天然气行业的投资与需求、导致生产成本管理困难并影响能源政策的制定和经济增长等.因此,充分了解天然气的价格决定机制及未来波动趋势至关重要.研究利用动态贝叶斯网络模型(dynamic Bayesian network,DBN)研究Henry Hub天然气现货价格的波动机制并预测价格波动率.作为研究结果,建立了天然气现货价格形成机制的动态因果网络图,全面展示了驱动价格形成的直接因素与间接因素.预测结果给出了未来24个月天然气现货价格波动率的取值范

期刊

天然气现货价格驱动因素分析波动率预测动态贝叶斯网络模型

问卷分割设计的成组序贯子问卷分配法

抽样调查在大数据时代仍是不可或缺的研究工具.然而,传统调查方式当前面临执行成本增加与数据质量降低的双重挑战.作为降低受访者负担的有效途径,问卷分割设计逐渐受到研究者重视.文章研究针对问卷分割设计中的子问卷分配过程展开讨论:在假设受访者招募服从泊松过程前提下,以降低协变量的子样本间差异为目标设计成组序贯随机过程.理论和数值分析显示该过程相较现有随机化方法具有优良的表现,可以更好地平衡子样本间协变量差异并提高估计量的估计精度.

期刊

抽样调查问卷分割子问卷分配协变量平衡成组序贯随机化

基于岭回归模型大数据最优子抽样算法研究

随着大数据时代的来临,为了提高计算效率,Wang等(2018)提出基于logistic回归的最优子抽样算法,在保证参数估计精度的前提下,节省了大量的运算时间.为解决变量间的多重共线性,文章提出基于岭回归模型的最优子抽样算法,并证明岭回归模型中参数估计的一致性与渐近正态性.利用数值模拟与实证分析对最优子抽样算法进行评估,结果表明,利用最优子抽样构建的模型与全样本构建的模型在参数估计的精度相近,并大幅减少了运算时间.

期刊

大数据最优子抽样算法岭回归

基于DCSBM模型的受访者驱动抽样调查估计量改进

大数据背景下,将受访者驱动抽样(RDS)用于网络抽样调查,解决了传统抽样调查难以获得可用抽样框、难以接触被调查者以及难以获得回答等问题,也使得网络调查可以实现概率抽样,得到一定误差范围内的总体参数估计.然而,在实际抽样过程中,同质性问题(即样本单元在推荐同伴时倾向于推荐那些与自己有相同属性的同伴)会导致RDS估计量的方差增大.为解决该问题,文章假定目标总体服从度修正随机块模型(DCSBM),利用区块间的经验转移概率对样本进行区块的事后分层,提出了事后分层与逆概率加权相结合的PS-IPW估计量.通过模拟不同

期刊

受访者驱动抽样度修正随机块模型同质性PS-IPW估计量

大数据背景下平台类企业开展抽样调查的应用研究

与本文相关的学术论文