【摘 要】
:
随着机器学习不断取得突破性的进展,复杂的机器学习模型在许多领域大放异彩,具有巨大的商业价值,促进了各行业领域的更新换代。但在我们不断去追求模型精度的同时,模型也不断复杂化,如何安全地应用这些复杂的高精度模型成为现在的一大难题。此外,高性能的机器学习模型一直无法运用到一些像金融、法律、医疗健康等对可解释性要求较高的领域,为解决这些问题,本文将对可解释的机器学习进行研究,对复杂模型进行解释,挖掘模型的
论文部分内容阅读
随着机器学习不断取得突破性的进展,复杂的机器学习模型在许多领域大放异彩,具有巨大的商业价值,促进了各行业领域的更新换代。但在我们不断去追求模型精度的同时,模型也不断复杂化,如何安全地应用这些复杂的高精度模型成为现在的一大难题。此外,高性能的机器学习模型一直无法运用到一些像金融、法律、医疗健康等对可解释性要求较高的领域,为解决这些问题,本文将对可解释的机器学习进行研究,对复杂模型进行解释,挖掘模型的决策依据。可解释的机器学习主要包含两个细分方向,一是内在可解释的机器学习模型,二是事后解释方法,本文将基于这两个方向进行研究和分析。在内在可解释的机器学习方面,本文将对近年新提出的模型EBM(Explainable Boosting Machine)、GAMx NN(Explainable Neural Network based on Generalized Additive Model)、GAMINET的原理进行介绍并进行实验分析比较模型的精度以及对模型的可解释性进行详细剖析。此外本文基于循环神经网络对内在可解释的模型GAMINET进行改进并应用于股票趋势预测,使得改进后的模型能够很好地处理时间序列数据的同时保留模型的可解释性。在事后解释方法方面,本文对经典的事后解释方法部分依赖图PDP(Partial Dependence Plot)、LIME(Local Interpretable Model-Agnostic Explanations)、SHAP(Shapley Additive Explanations)等进行了详细分析,并利用这些事后解释方法对训练好的复杂模型XGBoost进行分析,推断XGBoost做决策和预测的依据。基于事后解释方法LIME,本文提出了一种改进算法,LIME中使用线性模型局部逼近复杂模型,而本文将采用性能更好的内在可解释模型EBM和GAMINET去逼近复杂模型,改进后的LIME方法进一步提升了解释黑盒模型的性能。并且经实验发现,基于EBM的改进LIME方法更适合解释基于决策树的复杂模型,而基于GAMINET的改进LIME方法则相对更适合解释复杂神经网络模型。最后本文对研究工作进行了总结并对可解释的机器学习领域未来的发展提出了展望。
其他文献
伴随着5G、云计算时代的到来,通信运营商既面临着挑战同时也存在机遇。在电信大数据、个人征信的背景下,运营商不再是简单的提供通信、上网服务,构建全面的、有效的用户画像刻不容缓。一个合理的信用评价模型能通过分析用户数据,挖掘潜在客户,关注低信用客户,避免呆账坏账,提高企业利润。论文研究重点是针对电信数据集类不平衡问题进行信用评价模型构建。主要研究内容和成果如下:首先对原始电信数据集进行了预处理和特征选
近年来,全球人口不断增长,以化石能源为原料生产的化学品的需求大量增加,地球上有限的资源面临巨大的挑战。其中环己醇及其衍生物这种化学品在工业上有很大用途,可以应用到农药、化妆品、香料等领域。然而环己醇及其衍生物的生产来源于酚类的加氢和烃的氧化,这些原料都来自于不可再生的化石能源。寻找可再生能源来生产这种化学品很有必要。木质素是自然界中唯一具有芳香结构的可再生资源,目前可以将木质素催化解聚成酚类和烃类
改革开放以来,珠三角依靠自下而上的农村工业化带动了城市的快速发展,形成了“村村点火、户户冒烟”的工业格局,为早期经济腾飞奠定了基础。然而,粗放发展的村级工业园不仅消耗着大量土地资源,还使顺德出现了土地低效利用、环境污染严重、和空间破碎化等一系列问题。随着土地资源日益紧缩,土地开发模式面临着从“量”到“质”的转变,城市发展的重心也从“增量外延发展”步入了“存量内涵提升”。在此背景下,通过推动村级工业
氧化锌(ZnO)具有理论储锂容量高、绿色环保、简单易得、成本低廉等优点,被认为是极具发展潜力的新型锂离子电池负极材料。然而,ZnO负极存在着充放电过程体积膨胀导致的容量衰减严重以及导电性差导致的大倍率性能差的问题。将ZnO纳米化并与碳基材料复合可以有效抑制ZnO的体积膨胀并优化材料的导电性。木质素作为自然界第二大的生物质资源,其碳含量高达40-60%,表面含氧官能团丰富,且具有独特的三维网络结构。
随着智能终端的轻薄化发展及5G技术普及应用,超薄微热管因体积小、导热率高、稳定性好的突出优势,成为以智能手机为主的电子设备核心散热元件。但超薄微热管同样因尺寸优势给制造带来困难,尤其是缩径工序中铜管因刚度及强度较差而难以顺利成形。为解决上述问题,本文在传统模压缩径法的基础上,通过对成形模具施加额外的旋转运动提出针对微小型铜管加工的旋转模压缩径方法,能在保证成形质量的前提下实现更小的缩径系数与更高的
锑被用于印染行业中的催化剂及阻燃剂,会随着废水排放至环境中,重金属锑对环境和人体具有很高的潜在毒性,因此,由印染废水产生的锑污染问题备受关注。目前关于印染废水除锑的研究报道有混凝沉淀法、吸附法等,但这些方法存在处理成本高、产生二次污染等问题。因此,仍需要开发更加经济高效的印染废水除锑技术。为此,本研究利用污水处理厂生化过程中产生的剩余活性污泥,采用吸附等方法,对印染废水进行了除锑实验。一方面,探究
无结构化文本中蕴含丰富的命名实体以及关系信息,如何快速且准确地从文本中抽取这些语义信息是自然语言处理领域的基础任务,可以为知识图谱构建、信息检索等下游任务提供数据支撑。联合实体关系抽取旨在从文本中同时抽取所蕴含的实体关系三元组,因其较好解决了流水线框架存在的错误传播和忽视任务依赖问题,已受到研究人员广泛关注。目前联合实体关系抽取研究主要存在以下挑战:(1)长距离实体关系难以识别。由于梯度消失等问题
5G(第5代移动通信)网络普遍采用大规模天线阵列,通过至多192个单极化辐射单元形成64TR(收发通道,由三单元合成为一路)输出以满足宏覆盖需求。由于国内三大运营商在2.5-3.6GHz宽频带内分别占据高低两段5G频谱,而基站铁塔资源在持续扩容中又日渐枯竭,因此需要超宽频带双频天线阵列的一体化集成和共建共享来缓解铁塔资源困境;另一方面,三大运营商在两段频谱将形成双64TR输出,带来了设备的成本重量
针对我国垃圾量与日俱增问题,垃圾热解处理获取中低热值可燃气(简称垃圾热解气)得到快速发展,气体低氧稀释混合燃烧(MILD)技术通过增加动量、稀释反应物来减少局部高温区、降低污染物排放,两者结合使垃圾热解气的MILD燃烧具有显著优势。本文以典型垃圾热解气为研究对象,通过数值模拟的方式研究其MILD燃烧特性和规律。首先,基于全混反应器(PSR)的化学动力学研究表明:反应器最大温升和NOx浓度随过量空气
羟基磷灰石(Hydroxyapatie,HA)具有良好的生物相容性和生物活性,但传统的高结晶度的羟基磷灰石存在生物可降解性差和成骨活性低等问题,限制了其在临床上的应用。研究发现,人体骨中的生物磷灰石是弱结晶碳酸化羟基磷灰石,且含有包括Sr2+、Mg2+、Zn2+和Si4+在内的多种活性离子,大量研究表明,这些活性离子在与骨发育和代谢相关的生化反应中起着重要作用。本研究意在通过模仿生物磷灰石的组成和