【摘 要】
:
随着数据时代的到来,数据挖掘和知识发现得到了很多学者的关注,其核心机器学习方法在诸多领域都表现出强大的性能优势,从单一学习方法到以随机森林为代表的集成学习方法,模型预测的准确性在不断提升,但作为黑盒模型的缺陷却逐渐凸显,特别是在医疗、金融等领域,方法的可解释性尤为重要。可解释性机器学习可以提炼数据中的知识,并与人的知识进行验证和结合,更好地辅助决策。准确性与可解释性是机器学习方法研究的两大重要方向
论文部分内容阅读
随着数据时代的到来,数据挖掘和知识发现得到了很多学者的关注,其核心机器学习方法在诸多领域都表现出强大的性能优势,从单一学习方法到以随机森林为代表的集成学习方法,模型预测的准确性在不断提升,但作为黑盒模型的缺陷却逐渐凸显,特别是在医疗、金融等领域,方法的可解释性尤为重要。可解释性机器学习可以提炼数据中的知识,并与人的知识进行验证和结合,更好地辅助决策。准确性与可解释性是机器学习方法研究的两大重要方向,本文从数据预处理和随机森林方法角度进行方法准确性方面的研究,从可解释性规则学习和知识表示及管理角度进行方法可解释性方面的研究,提出了引入可解释性的随机森林规则提取方法(Interpretability-introduced Random Forest Rule Extraction,IRFRE),共分为基于随机森林的规则提取和引入可解释性的规则约简两部分。在第一部分中,本文从数据处理和参数优化的维度入手,充分发挥随机森林方法在分类性能和泛化能力上的优势,利用参数优化后的随机森林模型构造CART决策树,通过从根节点追溯到叶节点的方式提取丰富的IF-THEN决策规则;在第二部分中,针对随机森林的黑盒性,引入可解释性(interpretability)的量化评测指标,同时以准确性与可解释性为优化目标,在考虑种群多样性的前提下进行规则约简,并对约简后的规则进行知识化表示以便于知识的存储和使用,致力于在保持准确性的同时提升方法的可解释性。为了验证本文方法IRFRE的有效性,本文将其应用在可解释性机器学习典型的应用领域乳腺癌诊断问题,分别在威斯康辛诊断乳腺癌(WDBC)数据集,威斯康辛原始乳腺癌(WOBC)数据集,以及监测、流行病学和最终结果(SEER)乳腺癌数据集上进行验证和评估。通过规则约简分析、性能比较分析、数值统计分析、规则知识化分析,结果表明该方法可以有效提升黑盒方法随机森林的可解释性,在准确性与可解释性之间做到很好的权衡,并显著优于几种流行的规则学习方法和单一机器学习方法,且与改进前的随机森林方法相比,其可解释性得到了显著提升。本文又对提取的规则进一步分析,得到乳腺癌诊断的相关知识,并运用知识元模型对其进行表示和存储,为AI辅助诊断过程提供一种同时具备准确性与可解释性的方案,对于医疗资源的有效管理、患者满意度的提升有积极作用,充分发挥可解释机器学习的优势,同时可进一步推广到医疗的其他研究及金融、法律等其他领域。
其他文献
智能轮椅作为服务机器人的一种,是助老工程和康复工程中重要的一环,其中智能轮椅的自主定位和实时路径规划是实现轮椅智能化和自主化的重要条件,对智能轮椅的发展具有非常重要的意义。本文围绕智能轮椅在室内环境下的定位与路径规划等问题进行了研究。本文制定了智能轮椅的系统总体框架和相关模块技术方案,完成了以ARM嵌入式微控制器为核心的控制系统的主要硬件和软件设计。对于智能轮椅的定位方式,设计了一种适用于室内环境
维生素B6(VitaminB6, VB6)为水溶性维生素,是一类吡啶化合物的总称,游离型有吡哆醛(Pyridoxal, PL)、吡哆醇(Pyridoxine, PN)和吡哆胺(Pyridoxamine,PM),相应磷酸酯形式为磷
在最近的几十年里,Banach空间理论及几何理论的研究得到了快速发展,特别是在严格凸性与光滑性、k-严格凸性与k-光滑性、k-强凸性与k-强光滑性等有关凸性与光滑性理论的研究进
令Q为有理数域,对于无平方因子的整数d(d≠0,1),令K=Q(d1/2),则K是Q上的二次扩域.我们记OK为K的代数整数环.当d
植物再生是植物生理研究的重要内容,是转基因和快速繁殖的生理基础,研究植物再生具有重要意义。不同来源的小立碗藓的细胞或者组织,在无外源激素的条件‘下,通过再生可以形成
维生素B6(VB6)是一种水溶性维生素,也是一类毗啶化合物的总称,2-甲基-3-羟基-5-羟甲基吡啶是它们共同的母体,吡啶环第四碳位被羟甲基、氨甲基、甲酰基取代后分别形成吡哆醇(P
21世纪技术的发展瞬息万变,竞争环境复杂而且不可预测,客户的需求也上升到了苛刻的水平:定制化要求越来越高,交货期要求却越来越短。仅仅依靠传统的ERP企业运作方式已经越来
1,2,3-三唑类化合物的合成及应用是目前的研究热点。本文研究了一种无金属催化碳正离子介导的[3+2]叠氮-炔烃环加成反应,合成了各种多取代的三唑类衍生物。该合成方法采用酸
近年来,我国经济快速发展,人民生活水平得到极大提高。而为了满足消费者日益增长的物质需要,各类企业层出不穷,市场竞争也愈发趋于白热化。食用油作为居民生活的必需品也不例外,目前我国已有食用油加工企业一千多家,市场竞争十分激烈。相关食用油企业想要在这场竞争中脱颖而出,取得优势,不仅需要提供高品质、高标准的食用油产品,更需要从战略上对企业品牌进行建设。本文以河南省淇花食用油有限公司为例,对植物油加工企业品