基于混杂因素的医学模型公平性评估与重构方法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:lcj_111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着医疗大数据的快速发展,可解释机器学习模型被广泛用于医学领域。医学学习模型的公平性问题将影响针对不同患者群体的危险因素分析和疾病预测结果,已引起业界高度关注。然而,如何构建能够有效划分患者群体的“公平”模型,并据此给出对临床诊疗真实有效的危险因素与预测结果间关系仍是医学学习模型的痛点和难点。通过对医学学习模型公平性问题的深入分析,发现了由混杂因素带来的机器学习公平性问题。针对这一问题,提出了基于混杂控制的公平模型重构框架,框架由两个阶段组成。第一阶段是基于模型构建与事后统一解释的不公平发现与评估。基于特征贡献度和非零估计筛选混杂因素,有效提高混杂因素的寻找效率。利用公平性评估方法给出不公平的量化体现后,迭代找出影响模型公平性的核心因素。第二阶段进行基于混杂控制的模型重构。结合机器学习方法与统计学方法消除数据中存在的不公平,对患者群体实施去混杂划分,在此基础上构建新的模型。获得输出后,从特征公平性、模型平衡性、可解释性和医学合理性四个角度对重构后的模型进行评价,确保建立具有公平性且各性能良好的模型。基于2组规模化真实临床数据集和3个实际医学危险因素分析实验对框架进行了测试和验证。具体而言,1)在术后ARDS患者危险因素分析实验中,依照年龄作为混杂因素划分患者群体,重构模型在特征公平性上相对于初始模型分别提高了57.03%和71.91%。2)在儿童脓毒症早期诊断危险因素分析实验中,使用框架将患者群体划分为3组,重构模型在特征公平性上相对于初始模型分别提高了87.96%、84.78%、95.56%。3)在脓毒症休克合并血小板减少症患者危险因素分析实验中,验证了无混杂因素的结果。
其他文献
急性脑梗是一种常见的脑血管疾病,具有高发病率、高致残率、高死亡率、高复发率和高经济负担五大特点。在基于核磁共振(MR)成像诊断急性脑梗病灶时,专家之间存在着较大的主观差异性。因此,开发基于深度学习的急性脑梗病灶自动分割算法,准确地分割MR图像中的脑梗病灶并精确地进行定量分析,对于急性脑梗患者的诊断、恢复和预后具有十分重要的意义。急性脑梗病灶的分割存在数据量小、MR伪影干扰大、标注工作量大等问题,且
学位
近年来,采取基于深度学习的方法从单张或多张二维图像中恢复物体的三维模型得到了越来越多的关注,是目前计算机视觉领域的研究热点。基于传统方法的三维重建算法存在需要人工参与,算法泛化性不高等缺点,因此基于深度学习的三维重建是目前的主流方法,虽然目前的方法已取得良好的效果,但在单视图重建时存在先验知识利用不足、图像特征提取不充分、网络易受不平衡数据影响等问题,造成重建的模型存在精度不足、细节信息丢失等现象
学位
人脸物理对抗样本攻击(Facial Physical Adversarial Attack,FPAA)是指攻击者通过粘贴或佩戴物理对抗样本,如打印的眼镜、纸片等,在摄像头下被识别成特定目标的人脸,或者让人脸识别系统无法识别的攻击方式。已有FPAA的性能评测会受到多个环境因素的影响,且需要多个人工操作的环节,导致性能评测效率非常低下。因此,首要研究动机是对不同环境下的FPAA的性能进行自动化评测,旨
学位
数控机床作为生产的核心设备,发生故障将造成极大损失。及时诊断故障,恢复其运行十分必要。碎片化的故障维修日志中富含故障诊断知识,但检索耗时,难以利用。由此,提出利用知识图谱结构化的语义来描述零散的故障维修日志的思路,通过查询构建好的数控机床故障知识图谱,快速获得故障发生的原因。目前知识图谱构建方法中的复杂实体识别没有结合词汇信息,影响识别效果;复杂实体关系抽取方法,标签解码方式简单,忽视了实体和关系
学位
心脏冠状动脉钙化是导致心血管疾病的重要因素。实现CT图像中冠状动脉钙化灶的自动分割可以为医生诊断心血管疾病提供影像学的依据。针对冠脉钙化灶分割方法精度有待提高的问题,研究了基于深度学习实现非增强心脏CT图像中冠脉钙化灶自动分割的方法。针对冠脉钙化灶体积小、结构多样化和空间位置随机等特点,设计了以3D U-Net为基础网络,加入密集连接、残差连接、多尺度特征图融合以及空间注意力机制等改进机制的卷积神
学位
随着大数据时代的来临,数据爆炸式的增长,数据的安全共享与访问控制是保障数据安全隐私的重要一环。而伴随着用户对数据访问需求多样化,需要更精细粒度的访问控制,用于解决复杂业务场景中出现的问题。基于属性的访问控制(Attribute-Based Access Control,ABAC)通过将主体、客体、访问策略以属性的方式进行组织,可以匹配复杂的应用场景。虽然采用密文策略属性基加密机制(Cipherte
学位
随着互联网技术的发展以及网络电视平台的兴起,用户的需求也不再是简单的观看视频,还想在观看的同时寻求他人的见解或表达自己的观点。与传统评论区不同,视频实时评论即“弹幕”有着实时性强,互动性强,包含用户情感等特点。视频实时评论生成可以应用于提高视频或直播间人气,产生实际的经济效益,加强视频与用户的交互,提高用户的观影体验。视频实时评论自动生成任务是一个多模态任务,在生成实时评论时需要结合视频的图像信息
学位
同态加密算法是可保证数据安全,支持数据加密状态下进行明文等效计算的算法,在安全计算领域应用广泛。基于大量复杂多项式乘法实现的同态加密算法,存在计算复杂度高、资源消耗大的问题。最新加速方案利用离散伽罗瓦变换算法提升多项式乘法性能,能够降低算法复杂度,实现了图形处理单元(Graphic Processing Unit,GPU)上的简单并行。但该方案未充分考虑密文多项式特性以及GPU内存访问、线程调度特
学位
随着信息技术的快速发展,金融行业与互联网的联系日益紧密,使得金融领域产生了海量的非结构化文本。关系抽取技术能有效提取金融文本中实体对的关系信息,是构建金融知识图谱的重要环节。有监督关系抽取方法依赖于大量人工标注的数据,而在金融领域由于标注问题缺乏相关数据集,因此研究无监督关系抽取方法对于构建金融知识图谱具有重要意义。而金融文本中存在句式结构复杂、领域词汇多、实体名称长等特点,使得面向金融文本的关系
学位
人脸识别系统能够正常工作的前提是构建好系统用户的底片库,在人脸识别系统工作过程中,先要从底片库中加载人脸特征,为识别提供比对的样本。底片库作为人脸识别系统的基础,对整个系统的识别准确率有很大的影响。当前构建人脸识别系统底片库大多使用人工筛选的方法,耗时耗力,且存在误筛和漏筛的现象。针对这种情况,有必要实现一种自动构建人脸识别系统底片库的方案。底片库构建技术分为三个模块:人脸图像检测、人脸图像质量评
学位