随机森林的可视化解释与分析

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:galen621
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如今,机器学习已经成功地应用于信息检索、数据挖掘以及计算机语音识别等多个领域。但是,由于其功能和工作机制上的复杂性,实际应用与学习中大多数用户将机器学习模型视为黑匣子,且高性能模型的开发需要耗时的、反复的试验过程。所以,对机器学习的可解释性进行研究探索是一个很重要的命题。学术研究人员需要更加透明和可解释的系统,以更好地理解和分析机器学习模型。可视化分析是将数据转换成富有信息的视图的新兴技术,它利用人类强有力的视觉通道以及认知感知能力,帮助我们能动性地获取信息和分析信息。因此,我们利用可视化分析技术对模型的可解释性展开分析研究。随机森林是由许多独立决策树组成的集成模型,该模型的整体性能胜过任何单独的决策树。但是,这也导致了模型的可解释性很差,它严重阻碍了该模型在需要透明且可解释的领域中使用,例如医疗诊断等。模型中结构的多样性和复杂性是解释工作面临的最大的挑战之一。在本文中,我们实现了一个可视分析系统RFSeer,其包含了多个模块、多个视图以及用户友好的交互功能,旨在对随机森林模型结构进行多维度地解释,并尽可能减轻用户的理解负担。为了证明RFSeer系统的可用性,我们进行了泰坦尼克人员信息和乳腺癌数据两种案例的研究。本文完成的主要工作如下:(1)可视分析框架的设计。基于数据可视化基础理论,介绍本文中可解释性随机森林的可视化分析框架设计细节,此框架将模型中的数据信息和可视化手段相结合,作为探索随机森林模型可解释性的技术手段。(2)可视分析系统的设计目标和任务的提炼。基于随机森林模型的特点和可视化的理论,提炼出RFSeer系统的设计目标和设计任务,作为后续的设计和编码工作提供指导。(3)可视分析系统中视图(View)的设计与实现。本文根据提炼出的设计目标和任务,设计系统中的模块以及可视化视图,设计的视图对模型的迭代过程以及模型结构进行了可视化展示,并且最终编码实现可视分析系统RFSeer。(4)使用RFSeer系统进行可解释性案例分析。针对已实现的可视分析系统RFSeer,进行两种使用场景的案例分析和研究,来证明系统的可用性与效率。用户可以交互式地对模型进行多维度地、多角度地理解和探索。
其他文献
扭摆滑动定向作业过程中,最常见的问题是“托压”,来自于固定的钻具与井壁之间的摩擦力。这一问题可通过扭矩摇摆技术解决,即向钻具施加正、反向扭矩,化静摩擦力为动摩擦力,以减少钻具与井壁间的作用力。目前由于缺乏相关理论支撑,在滑动定向作业过程中为使工具面转动至目标值,仍需通过扭摆系统人工对正、反向扭矩值进行调整,该方式依赖于工程师个人经验,各井的控制效果因人而异,参差不齐,作业效率较低。针对以上情况,依
路径规划一直是热门的话题和研究方向,如何及时捕获和提前预测车辆行驶时间的动态变化是解决路径规划的难点及重点,本文提出的算法能够在保证计算速度的同时,提高路径规划的准确度。本文从以下几个方向研究路径规划问题:如何最小化路径行驶时间的均值和标准偏差的(加权)线性组合来解决可靠最短路。在合理假设基础交通网络的行驶时间遵循多元高斯分布的情况下,提出了一种高斯过程路径规划(GP3)算法来计算先验最优路径作为
三维点云语义分割是将点云中的每个点按照各自的类别进行语义的划分,对同一类别的点进行相同的标注。随着三维数据获取的难度变小,基于三维数据的技术开始逐渐发展,也已经开始应用在自动驾驶、智能机器人、遥感和医疗等领域中。点云语义分割算法是三维点云处理的重要方向之一,传统的点云分割方法精度不高,因此,本论文主要研究的内容为基于深度学习的三维点云语义分割,使用的基础网络为PointNet++,并对其从局部空间
回复式神经网络(Recurrent Neural Networks,RNNs)是深度学习领域中的一种基础的人工神经网络,其作为处理序列数据的记忆模型被广泛应用。如何处理好梯度消失与梯度爆炸问题一直是训练RNN的关键和难点。长久以来,人们提出了多种方法来解决RNN训练时的梯度问题,不断设计新的RNN变体用以处理更长的序列。尽管许多经典的模型已经被提出,如何使RNN模型在快速应对序列中短期变化的同时捕
计算机视觉发展过程中,人体姿态估计任务一直备受关注。在工业界和学术界,姿态估计任务也是极具挑战性的任务之一,目标是使机器尽可能的检测出人体样本中关键节点,比如鼻子、左右肩、脚踝、手腕。随着深度神经网络的引入和应用,人体姿态估计任务往往是预测人类行为规律的基础研究任务,为行人检测、样本重识别、特殊行为检测、人机交互等任务提供了基础预测能力。当前主流的人体姿态估计网络框架分为两种应用型网络,即人体结构
在工业产品的生产过程中,通常会无法避免地产生一些表面缺陷,因此需要检测出产品的表面缺陷以便及时发现问题并且对产品质量加以控制。与人工检测方式相比,基于计算机视觉的工业表面缺陷检测方法,具有成本低、安全性好、效率高、灵活性好等诸多优势,已成为自动化缺陷检测系统的重点研究方向之一。针对工业生产中产品的表面缺陷检测问题,本文设计了一种基于计算机视觉的深度学习平台,在表面纹理较规律的缺陷检测任务中取得了很
近几年,图神经网络的研究方兴未艾,在诸如知识图谱、社交网络、生物和化学等领域取得了卓越的效果。人们在享受它高效能力的同时,也在从各个方面对其可解释性进行研究,致力于探明其内部决策的机理。数学知识的推理由于知识的标准化、描述的规范化和使用图谱化形式进行推理,与图神经网络具有高度的契合性。因此将图神经网络与数学自动推理系统相结合,可以极大提升系统的学习和推理能力。针对其可解释性进行研究,能够使推理的过
光纤通信向着高速率、大容量、远距离传输的目标发展,由于光纤损耗,需要使用光学放大,为增加传输距离,必须相应地使用越来越多的光放大器。光放大器也使噪声放大,为保持较高的信噪比,信号光功率需要增大。然而,当光信号功率超过一定值时,光纤内的非线性会增强,产生非线性干扰噪声。在长距离、高激光发射功率的光通信系统中,光纤中累积的非线性效应成为影响系统通信性能的主要因素,信号由于受到非线性而产生畸变,使得通信
推荐系统被广泛应用于互联网的各个领域中,用来解决当前时代信息过载的问题。它不仅可以帮助用户快速筛选出感兴趣的内容,也为互联网公司创造出了巨大的商业价值。针对用户进行分析是个性化推荐系统的基础和前置工作。基于对某个用户的分析可以发现这个用户对不同物品感兴趣的程度。用户、物品和其他一些附属信息,比如标签信息、物品种类,共同组成了一个异构的信息网络。一般情况下,推荐算法会直接把用户描述为显式或隐式的评分
不断发展的传感、计算和通信技术驱动着信息物理系统和物联网深入到了社会的各个领域,如智能工业过程、智能电网和智能交通等。在工业控制领域,传统的基于可编程逻辑控制器或微控制器的控制系统面临着计算能力较弱、交互能力较差等问题,而随着边缘计算模式的出现和应用,为工业控制系统中智能和复杂控制方法如基于迭代的最优和鲁棒控制方法、模型预测控制等的应用提供了新的思路。本文以工业温度场控制为场景,尝试将边缘计算与控