海量数据下统计回归方法研究

来源 :西南财经大学 | 被引量 : 1次 | 上传用户:CrazyDesire
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着通讯和信息技术的高速发展,全球数据爆炸式地增长。面对铺天盖地的大数据,有效的数据分析与挖掘将推动企业、国家乃至整个社会的高效、可持续发展。值得强调的是,在大数据分析与挖掘任务中,统计回归分析的相关研究受到更为广泛的关注和重视。对海量数据进行统计回归分析,为统计研究人员提供了前所未有的挑战和机遇。关键挑战在于,现有计算机的计算能力和存储能力有限,将传统的统计回归方法直接应用于海量数据集是不可行的。因此,在海量数据背景下,研究海量数据统计回归方法,解决其建模过程中的技术难题,对于揭示社会和经济的复杂模式等,具有重要的理论意义和实践价值。本文选取“海量数据下统计回归方法研究”为主题,综合应用统计学和计量经济学等学科知识,采取理论分析,模拟研究和应用研究相结合的范式,将经典的统计回归方法扩展海量数据集上,并取得了好的数值研究结果。本文的主要贡献如下:(1)将众数回归方法扩展到海量数据集上,提出一种计算高效和统计有效的分块融合众数回归方法。这种方法的新颖之处是:首先将一个完整的数据集分成几个块,然后对每个块数据实施众数回归方法,最后通过加权平均的方式得出最终结果。提出的方法可以显着减少所需计算机的运行内存和计算时间,并在理论上证明了该估计量与全样本数据集上众数回归估计量一样有效。进一步,还研究了一种多重假设检验变量选择方法,识别模型的非零参数,并在理论上证明该方法具有oracle性质。此外,为提出的方法提供了一种实用的改进众数期望最大化算法。最后,利用模拟研究和真实数据分析检验了所提估计方法的有限样本表现。(2)研究了复合分位数回归的最优子抽样算法。首先从一般的子抽样样算法建立估计量的渐近性质,然后根据L-最优准则和A-最优准则导出两个版本的最优子抽样概率。由于前者不依赖于响应变量的密度函数,因此在计算上很容易实现。基于最优子抽样概率,开发了一种两步算法并研究了其估计量的渐近性质。此外,在L-最优性准则下,提出了一种联合子样本算法。该算法具有很大的可扩展性以利用可用的计算资源。使用联合子样本算法来计算估计量的标准差,并且该估计量可以显着提高估计效率。对模拟数据和真实数据进行了数值研究,以评估和展示提出方法的实际性能。(3)建立了分块融合复合分位数回归神经网络(DC-CQRNN)模型。首先,给出了 DC-CQRNN完整的建模步骤。然后,通过模拟研究表明,DC-CQRNN方法的预测结果不仅与全样本复合分位数回归神经网络基本相同,而且在预测精度上明显优于分位数回归神经网络、人工神经网络、支持向量机和随机森林。此外,在计算上,DC-CQRNN方法可以显着减少对主存量的需求,同时也显着减少了计算时间。最后,将DC-CQRNN方法应用于环境数据集,该方法完成模型训练仅需要8分钟,而完整的数据集CQRNN需要5.27小时才能得到结果。实现了对PH2.5及时和准确的预测。
其他文献
我国正处于由要素驱动增长模式向创新驱动发展模式转变以及全面落实经济高质量发展战略目标的关键时期。能否在我国当前和未来重点产业链和战略新兴产业体系中的关键核心技术创新领域实现自主可控式的全面突破,既关乎我国国家产业链的安全问题,也关乎能否突破以美国为首的西方发达国家针对我国的技术封锁和遏制。中美贸易战表明,我国对美国高新技术产业核心技术的依赖严重,关键零部件仍大量依赖进口,使得关键核心技术受制于人,
学位
本文通过改进广义的几乎不稳定的非线性Hawkes过程,建立了时变粗糙Heston模型,也就是波动率的波动率不再是一个常数而是一个关于时间t的函数。然后借助于仿射过程推导出了时变粗糙Heston模型下资产对数价格的特征函数。其次证明了非线性分数阶Riccati方程解的存在性、唯一性和正则性以及采用Adams格式来近似求解非线性分数阶Riccati方程。此外,利用Fourier-cosine方法结合A
学位
自2013年以来,中国基金市场以超过30%的年化增速持续快速增长,且这一迅猛的发展势头仍在持续。截至2021年底,中国公募基金总规模已超过25万亿元,为世界第四大市场。庞大的管理规模和持续快速发展的趋势,使得如何更好地为基金投资者创造价值,成为了日益重要的问题,对行业的高质量发展有着举足轻重的影响。此外,金融科技的快速发展和应用,以及90后逐渐步入工作岗位,使得居民理财意识大大增强。这一趋势还伴随
学位
党的十八大报告提出,农民工市民化是破解城乡二元结构的根本途径,同时也是扩大内需、调整经济结构的重要抓手。尤其在当前疫情冲击的大背景下,促进农民工城市融入,对于稳定经济发展,激发内需释放同样具有重大的现实意义。因此,研究农民工的居留模式,分析阻碍其留在城市的原因,具有显著的政策意义。与此同时,根据中国家庭金融调查与研究中心数据,农民工迁移模式也已由城乡间不停往返的候鸟式迁徙逐步转变为举家迁徙进城,完
学位
媒体情绪影响总体市场和公司层面的活动。本研究的主要目标是研究meida情绪对市场回报等总体市场水平指标以及在巴基斯坦的运营、融资和投资等公司层面活动的影响。本论文的实证研究基于巴基斯坦上市公司的数据,分为三个主要部分调查媒体情绪的影响。第一个实证章节考察了新闻、社交媒体和市场情绪对总体市场指标的影响。我们使用主成分分析技术来衡量媒体情绪,并使用偏最小二乘法来量化媒体情绪作为稳健性检查。我们接下来进
学位
随着计算机发展和数据时代的到来,产生大量的超高维数据。这些超高维数据的评估和选择非常依赖于模型设定。特别地,一旦被错误设定,参数模型可能会导致估计和变量选择有偏。另一方面,非参数模型,比如深度学习,可能带来不可解释性和不稳定性的估计结果。因此半参数建模成为了一种明智的妥协。受降维启发的多指标模型是一种兼具解释性及预测精度的半参数模型。本文研究针对复杂高维数据,如何尽可能充分地利用数据及结构信息,在
学位
疫病的主要病因是秽浊,因此芳香防治很关键,芳香类中药外用以防治疫病由来已久。诸多临床研究证实芳香外用可以起到防治传染病的作用。本文通过探讨得出,芳香外用中药可分为11类:悦脾开胃、化湿泄浊、疏肝理气、活血调经、逐秽辟疫、解表透邪、开窍醒神、通络止痛、温里散寒、清热解毒、祛风杀虫。芳香外用分别通过传统中医机制和现代医学机制起效。芳香外用可与现代多学科交叉融合,开发新的产品或技术,更好地服务于疫病的防
期刊
实体与网络渠道并存是零售市场的基本格局。这种双渠道让购物变得更加便捷。当实体店与网店销售同一产品时,消费者可以先到实体店体验、试用产品,转而在网店下单;也可以先在网上获取产品信息和用户评论,再到实体店购买。仅考虑一个渠道受惠于另一个渠道付出的服务努力,称为单向搭便车现象。若考虑两个渠道相互受惠于对方付出的服务努力,则称为双向搭便车现象。线上线下不同价或同价,双向搭便车的程度不同,都对两种渠道的需求
学位
为适应动态复杂环境和用户个性化需求,企业尝试结构转型,愈发依赖面向用户的一线员工和前端团队的即兴表现。即兴表现不仅需要管理层的智慧和洞察,更需要个体或团队展现灵活性和主动性,甚至能够根据环境变化以自我驱动方式施以工作调整,即工作重塑。与此同时,员工对工作的价值判断悄然变化,追求个人成长、自主性需要的员工希望工作符合自身兴趣。工作重塑成为近年来组织行为学领域的研究热点,并从个体层面扩展到以群策群力方
学位
党的十九大报告指出,中国特色社会主义进入新时代,我国社会主要矛盾已经转化为人民日益增长的美好生活需要和不平衡不充分的发展之间的矛盾。男女平等是我国的基本国策,保障妇女儿童合法权益是党中央施政纲领的重要内容。建国以来,中国大力推行男女平等,推动妇女全面发展,女性的受教育程度和社会经济地位大幅提高,但性别收入差距仍然存在,妇女发展不平衡不充分的问题仍然突出。世界百年未有之大变局加速演进,为了推动构建人
学位