基于变分推断的有限混合回归模型贝叶斯变量选择方法研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:yideng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代的发展,我们可能收集到存在的数据集可能存在异质性和高维度等特点。当数据来自于一个异质群体时,对整个数据集拟合一个单一的模型通常是不充分的,需要对数据中的子群体进行识别,对每个子群体拟合一个模型。有限混合回归模型常被用于解决该类问题。在高维情况下,我们通常需要通过变量选择对数据进行降维,而不同子群体的回归模型可能需要不同的预测变量子集来解释响应变量。因此相比于单一的回归模型,有限混合回归模型的变量选择问题更为复杂。我们提出了一种贝叶斯变量选择方法来拟合线性回归的有限混合模型,该模型假设数据来自一个异质群体,该群体由多个具有不同特征的不同子群体组成,在每个子群体内,响应变量可以通过对预测变量的线性回归来解释。本文在混合回归模型的基础上引入spike-and-slab先验,可以识别出每个群体中重要的预测变量。同时,考虑到同个预测变量在不同子模型中的相同作用,我们对该方法进行了扩展,提出了有限混合回归模型的分组变量选择方法。在算法上,传统贝叶斯变量选择方法多采用MCMC算法等抽样方法,该算法在大数据情况下具有耗时久、占用计算资源大等缺点。为此,本文推导了基于变分推断的VBEM算法,可以较快地同时实现对样本的聚类以及模型系数的估计。我们设置了两组模拟实验,将两种方法与基于惩罚似然和传统贝叶斯变量选择方法对比,验证了其具有良好的性能。同时我们也对真实数据进行了分析,以进一步说明方法的有效性。
其他文献
股指期权自推出以来对股票市场的跳跃风险究竟产生了怎样的影响,这是学术界、投资界和政府监管机构共同关注的一个重要问题。本文深入分析了股指期权的推出对股票市场跳跃强度、跳跃幅度的影响,为股指期权市场的发展提供了理论与实证支持。基于上证50ETF价格的5分钟高频数据,本文研究了上证50ETF期权交易推出对50ETF跳跃风险的影响。首先,利用非参数检验检测出50ETF对数收益率中的Lévy跳跃,在此基础之
学位
随着经济全球化的加深,越来越多的企业通过跨国并购实现国际化经营,特别是对于中国这种新兴市场国家而言,跨国并购带来的不仅仅是新的市场空间,更是学习吸收发达国家企业先进知识、技术和管理经验等战略性资源,实现后来者居上的重要方式。但是中国企业跨国并购却面临着并购失败率过高、并购绩效不佳的困境。企业进行跨国并购首先要面对的就是东道国不同的制度环境,本文首先结合外来者劣势理论、制度套利理论和跳板理论,从理论
学位
随着第四次科技革命和知识经济的发展,国家间的综合实力竞争已演化为科技竞争和人才竞争。STEM教育作为科学、技术、工程、数学等多学科融合教育,其发展质量直接关乎创新人才培养、科技进步和国家竞争力提升。美国是最早开展STEM教育的国家,在30余年发展过程中制定了一系列STEM教育政策法案与战略规划,为STEM教育的健康持续发展营造了良好的政策环境。STEM教育在很大程度上满足了美国市场经济对技术型劳动
学位
本文以我国大力实施“一带一路”倡议为研究背景,基于我国跨国企业面临的融资约束现状,旨在探讨“一带一路”沿线国家的金融发展水平、金融开放水平以及与我国的制度距离对于我国对外直接投资规模的影响。在了解我国对“一带一路”沿线国家的投资现状的基础之上,从金融发展和金融开放水平两个维度出发,分析了东道国金融市场影响我国对外直接投资的作用机制,考虑到“一带一路”沿线国家数量多、制度差异大,因此将制度环境也作为
学位
高超声速飞行器是航空航天领域中商用和军事应用重要的战略发展方向之一,随着马赫数和巡航时间的大幅增加,飞行器外表面以及主动力装置内表面所面临的热负荷问题将更加严峻,因此高效的热防护系统是保证关键部位承受极端温度条件必不可少的关键手段。其中,发汗冷却(Transpiration cooling)具有主动可控、冷却液消耗少等优点,被认为是下一代高超声速飞行器最有效的主动热防护技术。其原理主要是冷却液渗透
学位
Cu纳米金属颗粒烧结体具有优良的导电、散热性能,是目前IC产业重点关注的电热传输材料,尤其适用于柔性电路制造以及大功率半导体器件的封装互连。然而Cu纳米金属颗粒在空气气氛下烧结时容易氧化失效,使得其烧结成形工艺需要在高真空或还原性气氛下进行,严重地制约了其规模化应用。本文通过Cu纳米金属颗粒表面包覆Ag膜,合成出具有高氧化抗性与低温烧结性能的Cu@Ag核壳纳米金属颗粒,探索了颗粒在空气与真空条件下
学位
三七的市场需求因其优良的药食两用特性迅速扩大,而产地的限制导致三七价格不断飙升,同时也导致了市场上层出不穷的三七掺假现象。广泛存在的掺假现象严重破坏三七市场秩序。本文基于核磁共振技术(NMR),并结合模式识别方法,完成对三七的快速掺假鉴别与产地溯源分析。本研究第一部分利用低场核磁共振技术(LF-NMR)采集掺有川木通(CCA)的三七粉(P.notoginseng)的弛豫谱图。发现低场核磁共振参数(
学位
在分析泉州市沿海地区地质背景和水文地质条件的基础上,对研究区进行水文地质单元划分。依据381组浅层地下水化学数据,采用数理统计方法,首次建立了研究区不同水文地质分区地下水锰环境背景值范围。锰环境背景值在空间分布上的差异主要受区域地层岩性中矿物成分锰含量和地下水径流途径长短影响。在锰高含量背景区晋江流域,结合锰环境背景值对地下水进行质量评价,优质水占比83.4%,天然劣质水占比8.3%,劣变水占比8
期刊
参数估计方法在许多研究工作和实际中都有着广泛的应用。传统算法在解决参数估计问题时一般从信号的子空间或者其他变换域上进行特征提取,而本文基于神经网络提出一种以简单直接的思路解决参数估计问题的算法,并应用于不同类型的信号参数估计任务上。本文提出的网络算法使用单样本训练方式,不需要给网络提供理想信号作为标签数据。算法设计的网络框架类似自编码机结构,不过区别于典型的自编码机网络结构,本文将解码子网络替换为
学位
输尿管软镜碎石术是一种有效地治疗肾结石的微创手术。肾脏以及肾盂肾盏的解剖结构会极大地影响手术的清石率。精准的解剖结构参数测量需要基于计算机断层扫描尿路造影成像(Computed Tomography Urography,CTU)的肾脏的三维分割与重建。随着大量医学影像数据的增加以及高性能计算设备的出现,研究人员提出深度全卷积神经网络并对其不断地优化。它已经在图像分割、目标检测与识别等任务中取得了令
学位