机器学习模型事后解释方法的改进研究

来源 :中国石油大学(北京) | 被引量 : 0次 | 上传用户:vipshaw
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器学习模型在生产、流通、销售和服务各个环节都有广泛应用,但随着大数据时代的来临,可用于分析的数据急剧增加,导致模型结构日益复杂,逐渐失去可解释性。为提升复杂模型的可解释性而提出的事后解释方法目前已经取得一些成果,但仍存在若干科学问题亟待解决。针对事后解释方法中存在的部分问题,本文进行了改进研究。首先,系统梳理相关研究,对事后解释方法的种类及每一类方法的优缺点进行归纳总结。其次,在此基础上提出一种估计扰动样本合理概率方法,识别不合理样本,改进现有抽样方法。再次,详细阐述PDP、LIME、沙普利值和置换特征重要性的原理,深入分析其存在的问题,提出改进思路,给出相应的改进算法与实现,使用部分数据集进行示例分析,初步展示并论证改进方法的有效性。最后,使用七个UCI数据集、四类机器学习模型进行对比实验,进一步验证改进方法的有效性。实验结果表明,使用合理概率对扰动样本进行加权处理,能够减轻不合理样本对复杂模型预测结果的影响,显著提升PDP解释结果的稳定性和可靠性;通过蓄水池加权抽样确保抽取样本的合理性,能够提高代理模型对复杂模型预测行为的还原度,增强LIME解释结果的可信度;连续特征离散化和LIME框架的使用,能够统一连续特征和离散特征的度量尺度,在提高解释结果可靠性的同时显著降低沙普利值的时间和空间复杂度;基于沙普利值改进计算公式,充分考虑所有可能的特征扰动情况,从理论上确保置换特征重要性解释结果的局部准确性、缺失性和一致性。
其他文献
家庭分布式光伏是我国低碳能源体系中的重要一环,在实现我国“2030年前碳达峰和2060年前碳中和”的目标中起到重要作用。为此,国家补贴政策一直在推动该项目的发展。但是,截止到2020年年底,家庭分布式光伏项目在装机容量与总体占比方面都与预估潜力存在较大差距,这表明传统的经济理性人假设在居民光伏发电领域不能够完全成立,补贴政策无法充分发挥预期作用,需要寻找能够促进该光伏项目发展的新动力。为此,本文研
学位
心血管介入手术已经成为心血管疾病的重要治疗手段之一。传统介入手术中X射线产生的辐射严重影响医生的身体健康,且大多数介入手术机器人缺乏力反馈,无法保证介入手术的安全性。针对以上问题,本文对血管与导管建模、碰撞检测、力计算及导管空间配准等介入手术力触觉渲染关键技术进行了研究。具体内容如下:首先,基于质点弹簧和弹性杆方法分别建立了虚拟血管和导管模型。由于血管物理参数的设置对模型准确度十分重要,根据真实模
学位
随着互联网与物联网的进一步发展以及消费者对服务需求的进一步提高,优化全渠道布局,实现线上线下渠道融合成为供应链发展的重要方向。作为实现供应链协调的重要手段,“线上下单,线下取货”(Buy-online-and-pick-up-in-store,简称BOPS,下同)模式被越来越多的企业所采用。消费者在网上下单然后到实体店自提商品,便利的同时也获得购物的体验感,这种模式既解决了生产商存在的服务问题,又
学位
超表面可以看作是由亚波长结构单元构成的超薄二维超材料,其厚度要远远小于工作波长,主要利用结构单元的电磁响应特性对结构进行设计从而在界面处引入突变相移,进而实现对光的基本物理属性(偏振、相位、振幅)的任意操控。然而,为了实现对波前的完全控制进而实现各种不同的高效超表面器件,往往需要实现0到2π范围的全相位覆盖并同时保持较高的透射效率。在以往的研究中,很多科研人员利用等离子体超表面实现了各种不同的光学
学位
近年来,我国电动汽车市场保持高速发展态势,催生出对动力电池的巨大需求。随之而来的是日益增长的动力电池退役量,按照5-8年的使用寿命估算,中国即将迎来动力电池集中报废退役的时间点。为此,政府提出建立动力电池回收利用体系,并颁布了一系列政策文件来指导和规范动力电池回收产业的发展。但目前消费者对参与动力电池回收缺乏积极性,导致回收小作坊泛滥,严重阻碍动力电池回收体系的建立和完善。发达国家已经颁布了各种政
学位
三维重构技术目前已经广泛应用于精密检测、辅助医疗、无人驾驶、人脸识别、安检物流、增材制造等领域。标定是三维重构技术系统中的关键步骤。然而,在传统的校准过程中,由于校准板基于二维模型,校准板的平整度和照片拍摄的角度将会影响到后续基于特征点拼接步骤的精度。此外,照片的数量过少也会影响校准结果,为了提高校准精度,需要尽可能的拍摄多张照片。因此,本研究的主要目标是实现系统参数的简单、快速、高精度的校准,满
学位
随着摄像机网络部署的升级和扩张,智慧城市的不断建设,监控视频已经成为主流的数据来源。海量的视频数据造成了人工研究的负担,行人重识别技术开始飞速发展。然而基于有监督的行人重识别研究,需要大量的人力对行人身份信息进行标记,从而不能满足海量视频的研究。因此越来越多的研究人员开始关注无监督的学习,采用无标签的数据集训练网络,模拟真实的监控环境,会使模型更加实际可靠。此外,当前行人重识别研究多是基于静态的单
学位
“富煤、贫油、少气”是我国现实的能源禀赋。目前,我国油气产业的可持续发展面临国际油价低迷、国内常规油气勘探开采难度日益增大以及环境规制强度不断提升的多重压迫。在这样的背景下,油气产业技术创新更需要找准创新方向,突破“卡脖子”的核心技术,制定合理的油气产业技术创新发展战略。本研究基于Derwent专利数据库,从油气产业授权的发明专利视角出发,首先分析油气产业技术创新分布规律,然后运用社会网络分析方法
学位
随着环境问题和能源危机的日益凸显,依据国内外地区的经验和各国有关政策,能源转型是解决此问题最有效的方法。风电作为新能源发电中研究最多的一部分,逐渐成为了新能源发电的主流。以风电为代表的可再生能源发电代替传统的化石能源发电也是大势所趋。但是由于风电出力的随机、间歇、难以准确预测的特性,大规模的风电并网给电力系统的可靠运行带来了巨大的挑战,所以提供充足的旋转备用容量就显得十分有必要。尤其是由于负旋转备
学位
目前JPEG图像作为信息的重要载体,是人们获取信息的主要来源之一。随着各种图像编辑工具的普及,JPEG图像很容易被篡改,对其进行取证研究刻不容缓。在图像伪造过程中,通常会对篡改区域进行重采样操作(旋转、缩放、扭曲等),使合成的伪造图像更加逼真。因此,重采样痕迹取证有助于鉴别图像的真伪,具有较高的理论研究意义和实用价值。现有的JPEG图像重采样检测仍存在一定的难度与挑战。一方面针对JPEG图像降尺度
学位