【摘 要】
:
随着计算机发展和数据时代的到来,产生大量的超高维数据。这些超高维数据的评估和选择非常依赖于模型设定。特别地,一旦被错误设定,参数模型可能会导致估计和变量选择有偏。另一方面,非参数模型,比如深度学习,可能带来不可解释性和不稳定性的估计结果。因此半参数建模成为了一种明智的妥协。受降维启发的多指标模型是一种兼具解释性及预测精度的半参数模型。本文研究针对复杂高维数据,如何尽可能充分地利用数据及结构信息,在
论文部分内容阅读
随着计算机发展和数据时代的到来,产生大量的超高维数据。这些超高维数据的评估和选择非常依赖于模型设定。特别地,一旦被错误设定,参数模型可能会导致估计和变量选择有偏。另一方面,非参数模型,比如深度学习,可能带来不可解释性和不稳定性的估计结果。因此半参数建模成为了一种明智的妥协。受降维启发的多指标模型是一种兼具解释性及预测精度的半参数模型。本文研究针对复杂高维数据,如何尽可能充分地利用数据及结构信息,在多指标模型框架下,给出兼具解释性、计算有效性及高预测精度的回归模型。首先,我们基于数据的结构特点,提出了一种用于超高维数据分析的结构化多指标模型(SMIM)。在低维情况下,该模型包含许多常用的半参数模型,如随机边界模型、单指标模型、加性指标模型等。该模型有下列优点:1.由于具有浅层的深度学习结构,可以灵活应用于多种实际数据;2.其指标结构可以用于识别与结果变量有关的重要风险因素及影响程度,有较好的解释性;3.可以有效利用数据背后的结构特征,提高估计效率。但是特定的数据结构可能带来非线性特征,使得同时具有多元非参数及高维属性的SMIM估计及理论推导变得困难。在本研究中,我们基于全似然函数,利用样条的计算简单和核光滑技术的理论可获得性,给出两步法估计未知参数和未知函数,开发的算法可以借用现有包轻松实现,解决了计算及理论推导上的困难。进一步,我们证明所提出的估计是半参数有效的,具有选择和估计相合性以及渐近正态性。大量的模拟研究还表明,所提出的估计方法在各种情况下都优于其替代方案。结果用于分析中国一家白酒公司的销量数据,成功在2051个因素中,选出了影响白酒销量的生产边界、无效率部分和不确定性部分的31个重要变量,它们包括人均GDP、常住人口、价格、补贴费用、品牌推广费用、白酒产量等。分析结果有助于企业压缩成本提高收益,并可以推广应用到其他领域类似的案例分析中。另一方面,高维数据的一个典型例子是高维代谢化合物。研究治疗变量,比如营养摄入,如何通过代谢化合物(中介变量)影响青少年生长发育等是认识代谢化合物的有效途径,也是探索人类生长发育过程的科学问题之一。因果路径为分析高维中介变量提供了一个强有力的结构工具。现有的高维中介变量的路径分析主要分为忽略相关关系的单变量分析和基于主成分降维的多维中介分析。前者保留了解释性,但是由于忽略相关关系导致预测效果差;后者保留了一定的预测效果,但是缺乏解释性。本文提出兼具解释和预测性的多层次高维多指标结构方程模型(m SSEM)。我们的模型通过双重降维及指标模型,有监督地对高维中介变量进行分组和变量选择,在保留解释性的同时,模型也有较强的灵活性和数据适应性,因此有较高的预测精度。我们提出了判罚最小二乘方法估计参数及未知联系函数,并自动识别高维中介变量的路径模式。在现有成熟软件包的帮助下,我们开发了一个快速有效的计算程序。我们也建立了估计的大样本性质。广泛的数值模拟表明,本文提出的m SSEM在解释、估计和预测方面明显优于现有方法。本文的方法用于一项代谢组学研究,发现脂肪摄入量通过代谢化合物对胰岛素抵抗有负的间接中介效应以及女孩的胰岛素抵抗比男孩更高,即女孩比男孩更容易患糖尿病。更重要的是,基于我们提出的方法,我们可以通过有监督聚类结果,利用熟悉的代谢化合物机制解释未知的代谢物,从而探索未知的代谢物机制。比如说,戊酸雌二醇(EV)与熟悉的鞘氨醇(SMs)和神经酰胺被聚为一类,即表明EV的机制和后两者相同,这将使得单独研究EV的实验得以避免,在很大程度上降低了成本,对进一步开展相关研究具有重要的指导意义。
其他文献
增值税税制改革对经济活动产生重要的影响,每一件货物的每个生产经营环节,都需要按照该环节上的增值额逐次征税。自1979年引进增值税以来,中国的增值税涉及到一系列改革。1993年税制改革,增值税成为改革重点。2004年7月试点生产型增值税转消费型增值税的增值税转型改革,2012年1月试点营业税改征增值税(营改增)税制改革。在营改增之后,增值税依然经历了几次重要变化,如2018年调整部分行业增值税适用税
产能过剩造成资源配置扭曲、不良贷款膨胀、企业倒闭和效率低下等问题,成为推动经济转型升级和结构优化的障碍,直接危及国民经济的健康运行,与地方性债务和房地产泡沫并列为中国经济的三大风险。为化解过剩产能和提高产能利用率,中国政府出台了一系列日趋严厉的政策措施。尽管这些政策使产能过剩问题有所缓解,但中国企业落后产能淘而不汰和过剩产能久调不决等现象依然存在。充分理解中国产能过剩的成因是化解产能过剩和提高产能
近年来,随着平台经济蓬勃发展,全球范围内出现了数字平台滥用支配地位、排除限制竞争等突出问题(孙晋,2021)。如何构建平台经济治理体系,有效监管数字平台行为,已成为世界各国政府监管机构面临的一个极具挑战性的议题。自2020年12月中央政治局会议首次提出“反垄断和防止资本无序扩张”,国内反垄断部署全面铺开,数字平台经济领域首当其冲,成为反垄断监管的重点和典型,多部门密集出台法律政策文件,迅速搭建我国
近年来,全球银行体系遭受了一系列金融危机的冲击,风险管理者、监管者和投资者开始关注金融市场的尾部风险,尤其是银行股价的极端下跌。尾部风险可能来自多种来源,传统的尾部风险度量通常集中在银行特定的问题上,例如风险管理实践,收益管理,CEO营业额和银行内部债务等。然而,自危机以来,金融系统性问题日益突出,引发了全球各界对系统性风险以及风险传染效应的重视与研究。本文拟从资产定价的角度,研究上市银行收益率的
商业银行作为我国金融体系中最重要的金融机构,在我国金融系统中发挥着主导作用,且对于实现整个金融系统的平稳健康发展及促进国民经济的可持续增长发挥着重要的作用。十九大报告指出,我国经济已由高速增长阶段转向高质量发展阶段,该阶段特别是在新型冠状病毒全球大流行以来,银行业面临的流动性新规、资管新规及系列文件等一系列挑战可能会大于发展机遇,其原因在于挑战是现实存在的针对存量而言的确定性,而机遇则是为增量赢取
我国正处于由要素驱动增长模式向创新驱动发展模式转变以及全面落实经济高质量发展战略目标的关键时期。能否在我国当前和未来重点产业链和战略新兴产业体系中的关键核心技术创新领域实现自主可控式的全面突破,既关乎我国国家产业链的安全问题,也关乎能否突破以美国为首的西方发达国家针对我国的技术封锁和遏制。中美贸易战表明,我国对美国高新技术产业核心技术的依赖严重,关键零部件仍大量依赖进口,使得关键核心技术受制于人,
本文通过改进广义的几乎不稳定的非线性Hawkes过程,建立了时变粗糙Heston模型,也就是波动率的波动率不再是一个常数而是一个关于时间t的函数。然后借助于仿射过程推导出了时变粗糙Heston模型下资产对数价格的特征函数。其次证明了非线性分数阶Riccati方程解的存在性、唯一性和正则性以及采用Adams格式来近似求解非线性分数阶Riccati方程。此外,利用Fourier-cosine方法结合A
自2013年以来,中国基金市场以超过30%的年化增速持续快速增长,且这一迅猛的发展势头仍在持续。截至2021年底,中国公募基金总规模已超过25万亿元,为世界第四大市场。庞大的管理规模和持续快速发展的趋势,使得如何更好地为基金投资者创造价值,成为了日益重要的问题,对行业的高质量发展有着举足轻重的影响。此外,金融科技的快速发展和应用,以及90后逐渐步入工作岗位,使得居民理财意识大大增强。这一趋势还伴随
党的十八大报告提出,农民工市民化是破解城乡二元结构的根本途径,同时也是扩大内需、调整经济结构的重要抓手。尤其在当前疫情冲击的大背景下,促进农民工城市融入,对于稳定经济发展,激发内需释放同样具有重大的现实意义。因此,研究农民工的居留模式,分析阻碍其留在城市的原因,具有显著的政策意义。与此同时,根据中国家庭金融调查与研究中心数据,农民工迁移模式也已由城乡间不停往返的候鸟式迁徙逐步转变为举家迁徙进城,完
媒体情绪影响总体市场和公司层面的活动。本研究的主要目标是研究meida情绪对市场回报等总体市场水平指标以及在巴基斯坦的运营、融资和投资等公司层面活动的影响。本论文的实证研究基于巴基斯坦上市公司的数据,分为三个主要部分调查媒体情绪的影响。第一个实证章节考察了新闻、社交媒体和市场情绪对总体市场指标的影响。我们使用主成分分析技术来衡量媒体情绪,并使用偏最小二乘法来量化媒体情绪作为稳健性检查。我们接下来进