【摘 要】
:
产品质量抽样调查是政府质量监督部门监管产品质量状况的重要手段,在历年的产品质量抽样调查中,也累积了大量的实际数据.文章将大量数据提供的先验信息和抽样调查中的样本量设计进行了有效的结合,利用大数据提供的有价值信息作为辅助信息,使用聚类等方法对调查对象进行分层,根据各层的不同特点利用优先数系确定各层间相对误差限的关系,进而确定分层随机抽样样本量,使得样本量确定方式兼顾了科学和实用的优点.同时,通过对不同层的监督总体选取不同水平的参数,在调查费用有限的条件下,提高了监督的有效性.
【机 构】
:
中国标准化研究院,北京100191
论文部分内容阅读
产品质量抽样调查是政府质量监督部门监管产品质量状况的重要手段,在历年的产品质量抽样调查中,也累积了大量的实际数据.文章将大量数据提供的先验信息和抽样调查中的样本量设计进行了有效的结合,利用大数据提供的有价值信息作为辅助信息,使用聚类等方法对调查对象进行分层,根据各层的不同特点利用优先数系确定各层间相对误差限的关系,进而确定分层随机抽样样本量,使得样本量确定方式兼顾了科学和实用的优点.同时,通过对不同层的监督总体选取不同水平的参数,在调查费用有限的条件下,提高了监督的有效性.
其他文献
随着大数据时代的来临,为了提高计算效率,Wang等(2018)提出基于logistic回归的最优子抽样算法,在保证参数估计精度的前提下,节省了大量的运算时间.为解决变量间的多重共线性,文章提出基于岭回归模型的最优子抽样算法,并证明岭回归模型中参数估计的一致性与渐近正态性.利用数值模拟与实证分析对最优子抽样算法进行评估,结果表明,利用最优子抽样构建的模型与全样本构建的模型在参数估计的精度相近,并大幅减少了运算时间.
大数据背景下,将受访者驱动抽样(RDS)用于网络抽样调查,解决了传统抽样调查难以获得可用抽样框、难以接触被调查者以及难以获得回答等问题,也使得网络调查可以实现概率抽样,得到一定误差范围内的总体参数估计.然而,在实际抽样过程中,同质性问题(即样本单元在推荐同伴时倾向于推荐那些与自己有相同属性的同伴)会导致RDS估计量的方差增大.为解决该问题,文章假定目标总体服从度修正随机块模型(DCSBM),利用区块间的经验转移概率对样本进行区块的事后分层,提出了事后分层与逆概率加权相结合的PS-IPW估计量.通过模拟不同
大数据背景下,对于抽样调查的必要性和重要性,目前还存在一定争论.文章定义了两种类型的大数据场景,一种是现有数据量海量的情况;另一种是现有抽样框名录海量的情况.对于抽样框名录海量的情况下,抽样调查既必要又重要.文章基于某平台类企业的海量抽样框名录,对该平台类企业关心的问题采用目录抽样的方法进行抽样调查研究,并考虑了样本轮换情况下样本量分配、目标量估计与评估等问题,为今后其他类似的抽样调查应用提供一个有益的借鉴.
统计推断通常以置信度和误差两个指标衡量估计精度,但当置信度和误差其大小均不同时,估计量之间的精度比较将十分困难.文章提出了一个可广泛使用的无量纲精度指标,当估计误差不一,置信度也不一时,也能够进行精度比较.另从解释精度影响因素及其作用机制出发,发现了样本量确定公式与信息论之香农定理的逻辑一致性,并借此给出了关于样本量确定公式物理意义的一个新视角下的解释.
随着信息时代的来临,如何从海量数据中快速、有效地挖掘有用信息是目前面临的新挑战.子抽样方法作为大规模数据分析的有效工具,已经受到国内外学者的广泛关注.不过,传统的子抽样方法通常没有考虑到模型的不确定性.当模型假设不正确时,后面的统计推断将会出现偏差,甚至导致错误的结论.为了解决该问题,文章利用频率模型平均的方法构建了子抽样模型平均估计(简称SSMA估计).理论上,文章证明了SSMA估计是全部数据下模型平均估计的一个渐近无偏且相合的估计.另外,我们基于Hansen (2007)的Mallows模型平均方法提
近年来,“双十一”等限时折扣营销模式带给商家和消费者互利与共赢.本文将消费者策略行为考虑到限时折扣模式中,在考虑消费者后悔的情形下分别构建仅线下单渠道与线上线下双渠道共存的两阶段限时折扣定价模型,并进一步分析了促销时间和市场特征(如不同类型消费者比例)对商家最优策略的影响.研究发现:1)消费者会因为繁忙而削弱等待限时折扣购买的倾向,商家可以设置合适的正价与折扣促使消费者正价期购买来提高利润;2)限时折扣策略的最优正价和折扣价格决策与促销时间相关,这种关系随着市场特征不同而变化;3)开展线下限时折扣的同时开
数据中掺杂干扰数据的现象十分常见,对于随机出现的干扰数据处理,目前已有很多方法可以借鉴,但对于人为的干扰数据,若继续使用传统方法,则可能不会达到很好的效果.倾向值可以用一维数值来描述多维数据的特征,且当数据具有相近的倾向值时,其本身常常也很相似,并可能来自同一总体.因此,文章提出一种应用倾向值匹配检测干扰数据的新方法,即用最佳比例匹配来检测干扰数据.文章设计了两个算法,其一用于估计真实数据在原始数据中所占的比例,同时计算真实数据的总体均值估计;另一用于提取拟真实数据并进行建模分析.模拟研究证实了所提出的算
随着科学技术的发展,虽然人们提高了收集和处理数据的能力,但仍存在一些大数据集超出了现有计算机的计算能力.目前,抽取一部分样本来替代全样本进行建模计算是减轻计算负担的一种方法.大数据背景下线性模型的子抽样方法已经得到了相对成熟的研究,在减轻计算量方面获得了很大的优势.文章将线性模型下的子抽样方法推广到非参数回归模型,并推导出了基于子样本的加权最小二乘参数估计对全样本加权最小二乘参数估计的收敛速度,以及子样本参数估计的条件渐近正态性.通过最小化渐近方差的准则,提出了非参数局部多项式回归模型下的OPT和PL两种
随着信息技术的飞速发展,石窟寺文物的数字化保护与利用引起了国内外的广泛关注.文章从石窟寺文物数字化采集、保护和利用等方面进行系统梳理,重点分析石窟寺文物数字化保护中三维信息获取、三维重建评价以及三维打印等相关前沿信息技术的应用现状.并针对石窟寺文物数字化保护和利用工程实践中的难点,给出采用激光脉冲三维采集细部结合多视图重建采集整体形状的三维重建结合三维打印的解决方案.同时,针对摄影测量计算过程中可能出现的整体形状偏差,采用脉冲式激光三维扫描仪在石窟中进行整体扫描来建立石窟三维形状的框架,以对多视图重建计算
为准确进行GH159螺栓热镦后头部缺陷识别,提出了基于迁移学习的缺陷识别方法,其中,不同场景亮度下的数据集分别设置为迁移学习的源域,目标域.首先,考虑域条件分布的多簇特点,使用K-means算法对同类缺陷数据进行簇划分,确定簇中心,并基于其构造新的分布差异度量;其次,为有效提升迁移学习计算效率,使用簇中心间距离以及各簇中心与该簇样本间距离,建立新的类内差异度量;最后,以分布差异度量与类内差异度量的加权和最小化为目标,准确识别不同场景亮度下的缺陷.针对所提出方法的参数设定需求,基于反向验证理念设计伪精度,并