基于变分贝叶斯的缺失数据插补方法研究

来源 :天津商业大学 | 被引量 : 0次 | 上传用户:guoshun9231
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
麦肯锡讲过:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。”数据信息是否完备和充足直接关系到行业及业务的发展,可靠、准确、完整的数据能够提供准确、及时和系统的统计分析与决策,反之,数据的不完整或缺失会降低统计分析与决策的准确性,影响行业和产业发展,甚至会造成巨大的经济和社会损失。然而,在生产实践中,由于某些主、客观原因,不可避免的会造成一些数据缺失,影响数据的质量。对于缺失数据的处理问题,直接剔除或不处理操作最为简单,但会造成数据信息的损失或使建模更为困难。因此,如何科学有效的对缺失值进行预测和插补显得十分重要。贝叶斯统计是把任何一个未知参数都看作是随机变量,用一个概率分布去描述这个未知参数,然后在统计分析中利用已知数据和先验信息,去获取未知量的后验推断过程。而在贝叶斯模型中,数据后验分布的求解具有一定难度,变分推理则是寻求近似后验分布的一种常用方法,该方法将后验推断问题转化为优化问题进行求解,具有良好的收敛性和可扩展性,适合求解大规模近似推断问题。变分推理主要通过最小化KL-散度(Kullback-Leibler Divergence,KL Divergence)和证据下界(Evidence Lower Bound,ELBO)来寻求近似替代后验分布的任意分布。本文以含有缺失的数据集为研究对象,利用变分推理获得贝叶斯模型的后验分布,进而获得缺失数据的插补和其他统计推断。本文主要做的工作包括:(1)以数据缺失插补为研究对象,分析了平均场变分推理、期望传播变分推理、混合变分推理、坍缩变分贝叶斯推理和随机变分推理等变分推理方法在近似推断贝叶斯模型后验分布上的系列应用情况和流程。(2)对含有缺失数据的贝叶斯高斯混合模型数据进行插补分析,提出了变分贝叶斯插补方法,并且基于模拟数据和非洲部分国家出生时预期寿命实际数据集分别进行不同缺失比例情况下的实验比较分析,结果表明:在其他控制变量相同的前提下,低比例缺失的插补效果明显优于高比例缺失,并且变分贝叶斯插补法在不同缺失比例下的整体插补成功率和插补准确率均优于最近邻插补和均值插补等其他插补方法。(3)提出了基于变分稀疏贝叶斯的半监督回归模型,基于“房地产估价”数据集,利用半监督学习插补人为构造的某变量部分缺失数据后,进行插补前后的变分稀疏贝叶斯回归模型对比实证分析。结果表明,含缺失数据的变量可达到约为70%的插补正确率,并且插补后的数据集仍然能达到和原始数据集相差不大的回归效果,有效验证了该模型在处理不完整数据集上的有效性。
其他文献
本文通过对医疗美容损害案件的争议焦点问题进行分析,提出解决方案,促进医疗美容行业的健康蓬勃发展。正文主要分为四个部分,分别为医疗美容损害的司法案例梳理、医疗美容损害案件的举证难点问题、违反医疗美容合同条款的判定、医疗美容损害中适用精神损害赔偿的标准。第一章主要是通过对典型案例进行梳理,然后总结出其中的问题,分别是医疗美容损害案件的举证难点问题、违反医疗美容合同条款的判定、医疗美容损害中适用精神损害
学位
为加强个人信息保护和充分利用,我国制定了《个人信息保护法》并已于2021年11月1日开始实施。该法第69条将个人信息处理侵权的归责原则确立为过错推定责任,其进步意义无疑是值得肯定的。不过,对于个人信息处理侵权归责原则的设置问题各界仍没有达成共识。可以预见,随着个保法的实施,对于该问题的研究仍会是个人信息领域关注的焦点。因此,深入研究域外个人信息处理侵权归责原则的立法和实践,结合我国最新立法和实践探
学位
为了防治地下水污染,需要对污染物在多孔介质中的迁移做出预测。多孔介质关于污染物的吸附与解吸附作用影响了污染物的整体迁移规律,准确的吸附-解吸附模型将更有利于污染物迁移预测。本文通过对各类吸附模型的研究,验证了考虑吸附历史的非线性吸附模型(Bai模型)更符合实际情况,该模型考虑了多孔介质吸附能力的衰减现象,利用COMSOL Multiphysics(5.4)软件完成了数值模型的建立。通过理论分析与数
学位
当前我国的土壤污染问题日渐显著,为提高土壤质量需要对污染如土壤进行治理,而贝壳粉作为一种小粒径、碱性的材料,可以用作治理重金属污染物的吸附材料。本文研究了贝壳粉对重金属离子的吸附能力和吸附机理,同时分析贝壳粉在处理红土、石英砂中重金属污染物时渗流速度、重金属种类、贝壳粉添加量/浓度等因素对于吸附效果的影响。通过吸附动力学试验、吸附-解吸试验、微观电镜扫描、傅里叶变换红外光谱测试等手段对贝壳粉吸附镉
学位
《民法典》确立公序良俗原则,意味着既确认“习惯”“公序良俗”为民事法源,又确认“公序良俗”为习惯法源的是非标准,这一进步的历史意义在于承认民间社会生活自发生成的规矩秩序为民事补充法源,承认人民大众有集体无意识参与民事法源创制的权利。这既是从苏维埃法制理念向当代世界法治理念的升华,也是回归中华人文价值暨世界共同价值的升华。这一进步意义可以从公序良俗作为习惯法源之“宪法”、确立公序良俗原则的政治变革意
期刊
<正>2月17日,按照党中央和省委统一安排部署,山西省国资委党委召开2022年度民主生活会,会议以全面贯彻习近平新时代中国特色社会主义思想,深刻领悟“两个确立”的决定性意义,增强“四个意识”、坚定“四个自信”、做到“两个维护”,团结带领党员干部群众以奋发有为的精神贯彻落实党的二十大作出的重大决策部署为主题,
期刊
<正>风景园林建筑设计一直都是城市建筑设计的重点,将传统版画元素应用于风景园林建筑设计不仅能提升建筑物的魅力,而且有助于改善城市形象,促进当地旅游行业发展,进而带动经济发展。而版画是绘画的一种,讲究用刀或者化学物品在木板、石板等物品上进行雕刻或者蚀刻,以此创造出具有高度审美性的艺术作品。《传统文化语境下风景园林建筑设计的传承与创新》是由黄维著,东北师范大学出版社出版的书籍。该书从传统文化的角度出发
期刊
随着社会的发展和人们对生态环境和文化传承的关注逐渐增加,地域乡土植物在风景园林景观设计中的应用得到了广泛关注。越来越多的景观设计师在设计过程中开始注重选用本地乡土植物,将其融入景观中,以实现生态友好、文化传承和景观可持续性的目标。在风景园林景观设计中,充分应用地域乡土植物不仅能够融入当地自然环境,还能够体现地域特色,增强景观的可持续性和可塑性。本文主要探讨地域乡土植物在风景园林景观设计的应用方法。
期刊
随着非线性混沌理论描述现实经济现象的广泛应用,学者们认为非线性经济动态分析要优于均衡动态分析。因此经济活动的非线性相互作用在经济建模中得到重视,通过充分利用非线性动力学的混沌理论与方法,对经济系统的动态行为进行分析,非线性经济学由此得到发展。对于某一经济系统而言,稳定性可作为判断其优劣的标准之一。然而在经济领域中,当系统处于不稳定状态时,可能会导致混沌发生,这对多数系统而言是有害的。因此,如何控制
学位
蚁群算法在配电网故障区段定位中应用效果良好,但具有搜索时间长、计算速度慢等缺点,为此对蚁群算法进行了改进。首先构造了动态适应配电网拓扑结构的开关函数,其次提出了蚁群信息素初值设置方法,引入解的扰动规则,最后确定了蚁群算法应用于多电源条件下配电网故障区段定位的方法。算例结果验证了该算法在计算速度和容错性方面的优势。
期刊