海量数据下均值变点的统计推断与快速计算

来源 :西北大学 | 被引量 : 0次 | 上传用户:panzhengdang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
变点检测问题一直是统计学研究的热点问题之一,且变点检测已广泛应用于质量控制、地震灾害预测等领域.现有的变点分析方法很少考虑在大数据情况下的计算复杂度、内存需求和隐私问题.本文提出了两种海量数据中快速估计均值变点的方法――集中式估计方法以及分布式估计方法.
  当数据量很大但可以集中式处理时,均值变点的最小二乘估计的计算复杂度很大,亟需降低计算复杂度.本文针对集中情形下均值变点估计问题,提出了一种三阶段快速估计方法,并证明该方法与均值变点的最小二乘估计具有相同的收敛速度和极限分布,且大大降低了计算复杂度.我们从计算时间和估计效率方面进行了充足的数据实验,结果表明两种方法估计效率相似,但我们的方法计算时间明显缩短.
  当数据不可以集中式处理时,基于存储在一台机器上的子序列数据,我们得到了一个变点预估计值,并用该预估计值构造一个大概率覆盖真实变点的区间,然后所有机器在这个区间上搜索变点,并证明该方法与在集中式的情况下的估计量具有相同的相合性和极限分布.我们通过大量的数值实验验证了该方法的有效性,结果表明此方法的渐近性与传统方法非常接近,但计算时间大大缩短.
其他文献
经济发展方式转变的本质是要增强知识和创新对经济增长的驱动力,技术创新并不是独立的生产要素,它作用于生产是通过内生性地提高要素生产效率实现的,但技术进步并不必然同步提高所有要素的生产效率,即技术进步存在偏向性。现有研究主要关注技术进步偏向性与要素收入份额的关系,但是偏向性技术进步对经济增长的影响机理并不清楚,且当技术进步分别偏向资本与偏向劳动时,其对经济增长的影响大小,及投资渠道中介效应的强弱是否会
学位
资源约束、生态环境破坏、环境污染等一系列问题,其根源在于经济发展过分依赖外部环境投入而忽视了资源循环利用、充分利用,造成环境压力。仅凭政府之力治理环境问题势单力薄,践行绿色发展理念,发挥绿色金融资金融通、资源配置、风险管控、信息提供等功能作用助力环保产业才是缓解外部环境压力的重要途径。  本文梳理国内外研究文献,从理论上分析绿色金融的内生性、绿色金融对经济增长的内生机制。通过把绿色金融引入内生增长
学位
金融业作为各国持久发展的主要动力和调节市场的重要手段,是判断一个国家兴旺发达的重要标准。改革开放四十二年以来,我国综合实力提升,成为世界第二大经济体,在国际上占据重要地位,这与金融市场日趋完善密不可分。但是,在经济形势蒸蒸日上的大背景下,金融资源分配不均致使我国城镇居民和农村居民收入差距逐渐拉开,影响到国家经济发展质量以及一系列社会问题,已经成为一个不可忽视的社会矛盾。因此金融非均衡发展成为城乡居
新世纪以来,世界各国从提升教育质量和国民素质、强化本国核心竞争力的战略高度,纷纷开展教育改革,并将改革成果融入人才培养实践。中国实现教育现代化和教育公平的任务也被推上新的日程。目前看来,国外对教育公平的研究和关注较早,虽然其中有涉及中国的部分,但缺乏针对中国的系统全面的描述研究和探索。我国结合PISA数据对教育公平的研究较少,因此,本研究旨在完善我国教育公平现状研究理论及在学生层面探究影响他们感知
学位
企业的风险承担水平是影响企业经营与发展的一个重要因素,反映着企业在做出投资决策时表现出的风险偏好。风险承担水平越高,意味着企业更少放弃风险项目,对股东财富增加以及企业自身资本积累具有重要意义。本文将从政府补助这一角度出发,研究它对企业风险承担水平产生的影响,这种影响实现的中介渠道以及企业风险承担活动所致的经济结果。  政府补助有着促进经济社会发展、弥补市场经济体制缺陷、实现规模经济和实现社会政策目
学位
我国居民消费率在世界范围内处于较低水平,除了与中国家庭的储蓄习惯、消费观念等有关外,中国家庭面临信贷约束一直是这一现状的重要原因。国内在缓解家庭信贷约束的政策制定上,更偏向于从供给方入手,如推行小额信贷,发展普惠金融体系,增设银行营业点,加强县、乡等偏远地区居民的金融可及性等等。但是信贷约束不仅来源于金融机构,也来源于需求者本身。同时,我国作为发展中国家,家庭信贷市场的供给方呈现银行部门和非银行部
学位
企业存在的意义是通过一定资源的耗费创造出价值更高的产品或服务,而僵尸企业则不同,它们产出的产品或服务,不仅价值要低于其耗费的资源,而且大多品质低下,对社会的贡献甚至也是为负。如果把它们耗费的资源用于其它正常企业,创造出品质更好、价值更高的产品和服务,这不仅有利于资源的合理配置,也可能会促进区域的产业结构升级。因此,本文选取2000—2014年中国30个省份为研究对象,以要素配置为视角,就僵尸企业对
学位
通货膨胀作为最重要的经济变量之一,与国家发展、社会稳定以及人民生活福利水平密切相关。通货膨胀率的波动性或通货膨胀不确定性是与通货膨胀率的水平一样重要的变量。即使经济中的所有价格都具有充分的灵活性,它也会对厌恶风险的经济主体造成严重的福利损失影响。因此,能够尽可能准确地预测通货膨胀不确定性是至关重要的。  通货膨胀不确定性的预测通常取决于高频时间序列数据表现出的随时间变化的波动性聚类的典型事实,为了
学位
“三农”问题始终是我国首要关注和解决的问题。当前,中国城乡居民人均收入的差距仍然较大。农村居民收入较低的根本原因是农业劳动生产率低,而农业劳动力生产效率低的根本原因是资源少。因此,“三农”问题的核心是乡村人地(资源)矛盾。  我国乡村地区资源有限。就自然资源来说,中国人均农业资源和世界平均水平差距较大。而陕西省关中地区位于西部地区,受地理环境和较高的人口密度影响,人与资源的关系更为紧张。因此,以陕
学位
随着中国经济水平的飞速提高和能源的开发不断扩大,随之带来的是雾霾天气频发,而造成雾霾天的元凶之一就是PM2.5。本文利用中国363个城市2015年-2018年每小时一次的PM2.5实时观测数据,分析了近四年来各城市的PM2.5浓度变化,利用复杂网络图模型建模,研究了城市之间形成的雾霾污染网络的中心点和社区结构的变化。研究发现:经过雾霾治理,全国范围内雾霾有明显改善,但北京及东北地区雾霾污染治理效果
学位