教育数据挖掘中分类问题的可解释性研究

来源 :重庆大学 | 被引量 : 1次 | 上传用户:sysyssy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
教育数据挖掘(EDM,Educational Data Mining)运用机器学习等技术来解决教育研究与实践中的问题,涉及计算机科学、教育学和心理学等多门学科。由于EDM的研究成果主要服务于广大师生及教育决策者,它对机器学习模型的可解释性有较高的要求。一方面,EDM的用户一般不是信息技术专业人员,如果模型难于理解,他们可能拒绝使用该模型;另一方面,教育决策者通常要为自己的决策行为负责,如果模型不能给出合理的依据,他们可能不愿使用该模型来辅助决策。在过去几十年中,机器学习模型的可解释性问题一直备受关注,并取得了一些成果,但仍然存在一些问题,例如缺乏对不同模型可解释性的统一度量标准、较少考虑人的认知因素等。而EDM乃至整个数据挖掘领域的可解释性研究也存在诸多不足,特别地,当前研究主要集中于模型建立阶段的可解释性问题,忽略了数据挖掘生命周期中其他阶段的可解释性研究。针对以上问题,本文进行了充分的研究,提出了一个涉及数据挖掘整个生命周期的可解释性研究方案。鉴于分类模型在EDM乃至数据挖掘领域中应用最为广泛,本文只涉及EDM中的分类问题,主要工作包括以下五个方面:(1)系统地研究了数据挖掘中的可解释性问题:在总结数据挖掘生命周期中各个阶段可解释性研究的对象和目标后,提出了一个涵盖数据挖掘六个阶段的可解释性研究方案,并在论文中重点研究了数据理解、数据准备、模型建立和测试与评估四个主要阶段的可解释性问题。特别地,本文以EDM中的分类问题为背景,利用该方案研究了EDM的可解释性问题。(2)提出了一个提高原始数据集可解释性的处理流程:在数据理解阶段,提高可解释性的实质是提升原始数据集的可解释性。故而,提出了一个包含若干种方法的流程,以增强对数据的洞察。该流程包含了降维、可视化、聚类分析、Markov模型和特征选择等多种方法。特别地,提出了两种基于特征间差异程度的特征选择方法,以辅助人们快速抓取数据集中的重要信息。(3)提出了一种两阶段的数据准备方法:在数据准备阶段,提高可解释性的实质是提升待建模数据集的可解释性。EDM分类问题中的原始数据通常是不均衡的,现有的特征选择算法均没考虑到这一特点。故而,提出了一种两阶段的数据准备(TSDP,Two-Stage Data Preparation)方法,解决了数据不均衡情况下的特征选择问题,构建了一个预测准确性高且易理解的待建模数据集。(4)提出了一种解释SVM分类模型的方法:结合认知心理学的理论知识,提出了一个研究黑盒模型可解释性的框架。在该框架下,借鉴认知心理学的范例理论和可得性启发式,提出了一种解释SVM分类模型的方法。该方法模拟了人类认知的过程,解释结果容易被人们所接受。实验结果还表明,该方法比其他黑盒解释算法更加稳定和准确。(5)提出了一种跨模型评估可解释性的研究框架:通过引入机器学习算法对模型的可解释性进行评估,实现不同模型可解释性的比较。首先将不同类型的模型转换为图(graph)并抽取出若干特征,然后通过实验采集与模型可解释性相关的数据,最后使用机器学习算法训练出评判模型,从而实现跨模型的可解释性比较。实验结果表明,该评判模型可准确评估模型的可解释性,还具有较强的泛化能力。本文关于可解释性的研究涉及数据挖掘生命周期的多个阶段,弥补了现有研究的不足。尽管研究对象限定在EDM领域,但许多方法也可方便地移植或推广到其他应用中。本文的研究结果可为数据挖掘和教育领域的研究提供有价值的线索。
其他文献
石油作为“工业血液”在近现代工业的发展中起着举足轻重的作用,随着海洋地质勘探开发技术的快速发展,海洋石油勘探开发进入到一个新阶段。海洋石油勘探开发发展史是地质事业
随着谐振子尺寸的不断减小,分子力等因素的影响越来越显著,微型谐振气体传感器的谐振子实际上处于多场耦合的工作环境中。考虑分子力、热应力和吸附气体浓度的影响,建立了谐
虽然近年来我国高速铁路迅速发展,但大型、高技术养路机械如铁路捣固车的发展却显得相对滞后。铁路捣固车是一种大型的液压机械,目前我国铁路捣固车的主要车型几乎都是在引进、吸收国外技术的基础上生产的,由于缺乏自主的设计、研制和维护方法,在中国铁道的实际服役环境中,出现了各种各样的问题。本文综述了铁路捣固车的发展概况,对国内外主流捣固车的技术参数和性能特点进行了总结,研究了铁路捣固车液压驱动系统的设计方法,
第一部分OSAHS患者载脂蛋白B/载脂蛋白A-I、胰岛素抵抗及十年心血管疾病发病高风险的相关性研究目的:载脂蛋白B/载脂蛋白A-I(apolipoprotein B/apolipoprotein A-I,APOB/APOA
一直以来,在日常生活中,海水淹溺是严重的社会安全隐患,它每年会造成大量人员和财产损失。与淡水引起的淹溺相比海水吸入性肺损伤较淡水损伤严重,救治困难,吸入后患者极易并
以天水地区野外捕获的虎斑颈槽蛇(Rhabdophis tigrina lateralis,Berthold)为研究材料,采用人工饲养、形态学、组织学观察法研究观察了虎斑颈槽蛇早期不同发育胚胎,研究了不
城市的旧城区见证了一个城市的发展历史,是城市文化的载体。但随着现代城市化的不断推进,旧城区更新中出现的问题也日益显著。旧城区的建筑年代久远、建筑破损严重、城区环境
挥发性有机物(VOCs)是导致城市雾霾等大气污染的重要前驱体,传统的处理方法已经不能满足现在大气排放标准的要求。因此,针对工业排放浓度低、成分复杂的VOCs具有独特优势的非热
权利外观理论是商法的基本理论之一,它是德国私法学者在二十世纪初创立的,虽然我国学者对权利外观理论的研究较晚,但是这并不影响其在票据法领域的重要性,因为权利外观理论的
图书馆具有得天独厚的资源优势 ,在知识经济条件下 ,图书馆要充分发挥自己的优势条件 ,强化各项服务措施 ,更好地为基础教育和素质教育服务