基于多任务学习的临床病历表型谱抽取方法研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:wwwboy2000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
临床病历是一种重要的数据类型,对于临床分析来说,通常包含有价值和详细的患者信息。近年来,医学领域的自然语言处理已经成为生物医学信息学的一个活跃研究方向。然而,中文临床病历一般以半结构化的文本形式存在,对医学研究造成了一定的困扰。因此,迫切需要对病历文本进行信息抽取,形成结构化病历,有效地利用临床文本。现阶段涌现了大量基于深度学习和预训练模型的方法,在医学命名实体识别领域取得了较好的结果,但多任务学习的相关研究仍较为匮乏。是以,本文结合自然语言处理方法,以人机协同的方式构建了标准数据集,然后实现了细粒度的表型命名实体识别方法,并探索了多任务学习在生物医学命名实体识别领域的实践。本文从以下三个方面介绍:(1)针对现有中文标准数据集缺乏的问题,本文构建了人机协同表型谱标注框架,融合了无监督实体抽取、实体匹配预标注、同源实体抽取模型预标注和基于贪心算法的核心样本筛选等算法。目前,本文基于此框架,已经构建了4个标准数据集,它们分别是TCM-HN、COVID-19、TCM-SX及TCM-HB。其中共包含76,581份病历文本,1,675,200个已标注实体,包含阴性症状、阳性症状和西医疾病等十余种实体类型。本文对标注结果的统计显示,80%的实体由机器标注而成,且审核部分的人工工作量也只占约40%,说明以人机协同的方式标注病历文本,极大地减少了人工标注的工作量。(2)本文以TCM-HN和COVID-19为数据基础,提出了细粒度的表型命名实体识别方法:Phenonizer。该方法利用BERT获得字符级全局上下文表示,结合Bi L-STM提取局部上下文特征,通过CRF捕获实体标签之间的依赖关系。在COVID-19数据集上的结果表明,Phenonizer优于基于随机嵌入、Glo Ve和Word2Vec的方法,F1-score为0.8960。通过比较不同领域的字符嵌入,发现医学语料训练的字符嵌入给模型的F1-score带来了0.0103的提升。此外,本文在两种粒度数据集上对Phenonizer进行了评价,证明了细粒度数据集可以使F1-score略微提高0.005。而且,细粒度数据集使模型能够区分阴阳性症状。最后,本文对Phenonizer的泛化性能进行了测试,F1-score为0.8389,并融合小部分COVID-19数据进行微调,使F1-score提升至0.9097。结果表明,Phenonizer是一种可行的方法,可以有效地提取症状信息,并具有良好的泛化性能。(3)对于多任务学习在Bio NER领域的探索,本文提出了一种级联形式的多任务表型实体抽取方法:CMTL-NER。以W2VM edical-Bi LSTM-CRF和Phenonizer为基础模型,在不影响模型性能的前提下,CMTL-NER减少了模型的参数量和训练时间。本文比较了不同文本长度下,单-多任务模型的性能和训练时间。在CCKS-19数据集上,CMTL-NER的F1-score比单任务模型高0.01;在TCM-HN数据集上,CMTL-NER的F1-score高0.005。此外,CMTL-NER的每轮训练时间都比单任务模型短。最后,本文对经典多任务Bio NER方法MTM-C进行了修改,使其适用中文数据集,并将其作为基线模型。在TCM-HN和TCM-HB数据集上,MTM-C的F1-score都比最优的PhenonizerCM T L-N ER略低0.02,证明了CMTL-NER方法的性能和稳定性。
其他文献
随着智能设备的普及和移动互联网技术的迅速发展,基于位置的社交网络(Location-based Social Networks,LBSNs)开始变得普遍和流行。兴趣点(Point-of-Interest,POI)推荐作为LBSNs中核心的智能应用,能够通过用户在社交网络上记录的历史移动轨迹预测用户将要访问的下一个兴趣点。然而现有对这项技术的研究仍然面临着两个挑战。首先,用户的历史签到轨迹蕴含了用户
视频目标分割是机器视觉中的一个热门方向,在视频理解的精确对象跟踪、视频编辑、场景理解、自动驾驶汽车等领域都有广泛的应用。然而视频目标分割在实际生活中应用仍然存在着许多难点和挑战。首先是目标随着场景的变化,会存在目标被背景遮挡的问题,以及目标多尺度变化的情况;然后目标与背景的纹理或者颜色有极大程度的相似性;最后是现有的算法都难以满足在实际应用中分割的速度,特别是对于多目标物体。为了克服这些难点,本文
随着电子商务的发展,仓库中分拣的订单也呈现出“多品种、小批量,多批次,高时效”的特点。而传统人工拣选方式需要消耗大量的人力物力。在这样的情况下,为了降低物流分拣成本,提高服务效率,越来越多的企业开始在仓储物流中使用机器人。近年来一种新型自主移动机器人(Automated Mobile Robot,AMR)兴起,它采用人机协同的方式,将作业人员的移动集成到一个工作流程中。2019年的一项对AMR市场
随着新零售模式的快速发展,外卖行业的发展愈发迅速,“点外卖”已经成为了人们的主流生活方式之一。随着资本补贴红利减弱,外卖行业面临更加严峻的市场竞争压力,目前国内的外卖行业已基本形成饿了么与美团外卖“两雄争霸”局势。市场格局的基本形成使各大外卖平台将提高竞争力的主要着力点转变为如何提高配送服务水平和降低配送费用上,庞大的外卖市场带来的是配送压力的不断加大,外卖企业更多的关注于配送服务的优化问题。因此
轻度认知障碍症(Mild Cognitive Impairment,MCI)是介于正常衰老和老年痴呆的一种中间状态症。利用静息状态功能磁共振成像(Resting-state Functional Magnetic Resonance Imaging,rs-fMRI)进行动态功能连接(Dynamic Functional Connectivity,d FC)分析是目前捕捉神经活动动态变化进行脑疾病识
近年来深度神经网络在图像分类、自动驾驶、语音识别等多个领域取得了突出成就,尽管如此,它们仍面临着对抗样本的安全性威胁。对图像来说,对抗样本是在原始图像上添加微小扰动后,使网络模型产生错误判断的图像,并且预测错误的类别会获得很高的置信度。为更好地解决这一“反直觉”的现象,提高分类神经网络的鲁棒性,我们需要深入了解对抗样本的攻击原理。现有的对抗样本生成方法无法确保添加的扰动量足够小,因此极易被人眼所察
道路运输在交通运输中占有相当高的比重,货车作为运输过程中的主要载体,在运输时往往以多辆车编队的形式出现。货车编队行驶不仅可以增加道路通行效率,还可以利用前方车辆的尾流效应来降低整体的燃油消耗。近年来随着传感器技术、通信技术以及自动控制技术的发展,越来越多的学者开始关注货车编队控制研究。本文针对货车编队行驶问题,研究了三种基于无模型自适应控制(Model Free Adaptive Control,
在信息化高速发展的今天,管理信息系统作为企业的工作平台已得到越来越广泛的应用。但是,管理信息系统的开发需结合企业背景、经营理念以及管理流程等多个因素,同时涉及需求分析、架构搭建、功能设计、测试调试、运行维护以及应用评价等多方面内容,可以说是一项综合性较强的系统工程。由此可见,在规定的计划工期内完成管理信息系统的开发具有很大的挑战性。与此同时,管理信息系统的开发作为软件类项目的一个类别,同样面临着开
预售作为一种新产品销售策略,已被广泛应用于各类产品的销售。预售模式下,产品的整个销售周期被分为预售期与现货期两个阶段。在互联网时代,在线评论平台激增,预售期已购买的消费者往往会通过在线评论平台发表相关评论。现货期消费者可以轻松获知产品价格和产品评价等信息并对其进行学习,更新自身对产品的认知和态度。基于评论的社会学习行为会影响消费者的购买决策,最终将影响零售商的预售决策。为此,部分商家开始采取评论操
众所周知,中国的房地产起步缓慢,但是近几年崛起迅速,并且以惊人的速度发展壮大。自20世纪90年代以来,国家实行了一系列的经济政策,加强了政府对市场的宏观调控,伴随着整体环境的变化,房地产行业发展步入新阶段,在国民经济体系中的作用愈发明显,开发的房屋也是居民生活的必需品,对居民的消费行为产生直接影响,由于宏观大环境和顾客需求类型的转变,房地产行业在推行新的项目时需要重新审视自身的市场定位,改变固有的