基于深度学习识别医学文本中的PICO成分

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:usaend
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
循证医学是20世纪90年代在临床医学领域内迅速发展起来的一门新兴学科,是一门遵循科学证据的医学,它能够充分地应用当前所能获得的最好研究证据,结合临床医生个人的临床经验,给患者制定最佳的治疗措施。循证医学通过使用一种通用规范即PICO原则来解决实际的临床问题,它的主要内容包括患者/参与者(Patient/Participant),干预手段(Intervention),对照措施(Comparison),以及关注的结果指标(Outcome)。循证医学的分析首先选择一组可能相关的医学文本,形成一个特定问题答案所依赖的证据基础。为了方便这个选择的过程,所有的医学文本都可以按照PICO原则来进行组织,但是很大一部分医学文本包含了非结构化的文本数据,没有明确的PICO成分。因此,如何从医学文本中快速且高效地识别出PICO成分越来越受到关注。本文的研究内容包含以下三个部分:(1)基于双向门控循环单元模型联合条件随机场的PICO成分识别。传统机器学习方法存在特征抽取不足的问题,并且识别PICO成分要训练多个模型,不仅消耗较大的计算资源而且效率低下。为了解决上述问题,本文提出了基于双向门控循环单元模型联合条件随机场的PICO成分识别的方法,经过训练、测试以及评估,在P成分上的F1值为88.24%,在I/C成分上的F1值为80.49%,在O成分上的F1值为86.62%。实验结果表明,此方法不仅能改善传统机器学习模型存在的特征抽取不足的问题,而且可以同时抽取出多个成分,避免创建多个模型而造成的资源浪费,并且在识别效果上优于传统机器学习模型。(2)基于BERT模型联合双向门控循环单元和条件随机场的PICO成分识别。针对传统词向量无法解决一词多义的问题,而且预测上下文语义信息的能力有限。本文提出了基于BERT模型联合双向门控循环单元和条件随机场的PICO成分识别的方法,经过模型训练、测试以及评估,在P成分上的F1值为91.22%,在I/C成分上的F1值为85.98%,在O成分上的F1值为89.87%。实验结果表明,该方法通过下层的词向量表示和上层的上下文语义信息抽取来提供更加准确高效的训练,从而获得更好的识别效果。(3)PICO成分识别系统的设计与实现。采用BERT联合双向门控循环单元和条件随机场方法进行模型的训练并编写模型接口,实现PICO成分识别系统。本文提出的PICO成分识别方法取得了较好的识别效果,能够从医学文本中快速且高效地识别出PICO成分,以期PICO成分识别能高质量地解决具体的临床问题。
其他文献
西方中世纪至今,由于社会的发展时代的进步,经济、政治、思想也随之发生潜移默化的变化,所以人们的观念也在发生改变。在音乐的“创作”与“接受”上人们经历了单线条发展为横向的多线条,又从多线条转向单线条的音乐思维。这其中的多线条思维就是指多声部复调音乐思维。西方最早记载的复调音乐叫“奥加农”,因此奥加农也成为人们所知世界上最早的复调音乐。复调音乐是多声部音乐的一种,与主调音乐相对应。主调音乐的特征在于它
在多标记学习任务中,一个示例对应多个标记,多标记学习与单标记学习相比有着更广泛的应用背景。但是在实际应用中很难获得完整的标记信息,这种基于不完整标记的数据样本的学习就是弱监督多标记学习,并且这类问题广泛存在。除标记缺失问题外,真实数据集往往同时含有特征噪声和标记噪声,但是传统的多标记学习算法大多都是基于训练样本没有噪声,或者只考虑了其中一种噪声,然而忽略任何一种噪声都将影响多标记学习算法的预测性能
钱泳为清代学者,一生未曾入仕,长期作为幕客游走于各大幕府,《履园丛话》中所记载的园林多为钱泳在幕府活动时所观,在幕客工作之余游览周边名园,并在晚年时归纳留下了的文字成为了如今重要的园林研究史料。但当前对其研究主要聚焦于其书法碑帖方面。而对关于其笔记作品中所蕴含的园林史料方面的价值未成系统的剖析。本文从园林的学科视角出发,以历史文献以及园林美学的研究方法,结合钱泳所处社会状况、个人经历以及在艺术、文
文章主要以调式研究为主线,结合传统的民族调式技法来分析两首艺术歌曲,探索其中的艺术价值。从两首音乐作品调式调性的使用情况出发,以实证研究的方式,阐明在两首作品中可能出现的转调手法进行研究。本文主要提出了以下几个观点:1、和弦的构造形式是人类在上百年音乐的实践中形成的,是纵向音乐思维的基本依据。对作品中比较特别的和声进行分析研究,阐述为什么在作品中会使用这样的和弦构造形式,在常见的和弦体系中,基本的
机器学习在进行攻击检测时具有自动化程度高、检测速度快、善于发现变异样本等优点。然而,在使用机器学习进行Web攻击检测时仍存在检测准确率有待提高和算法本身的安全隐患问题。准确率有待提高的主要原因是在特征提取阶段,若特征向量选择过多,会导致模型过拟合,并影响算法效率;若特征向量选择少,会产生大量的误报数和漏报数。算法安全隐患产生的主要原因是因为机器学习模型的训练集在数据采集和模型训练阶段易被攻击者利用
计算机技术迅猛发展,机器学习在生活中的应用场景越来越多。目前,很多机器学习算法依赖大量的标注样本训练才能完成分类任务,但一些珍稀动植物样本难以收集,于是有学者提出广义零样本学习问题。希望机器学习模型能像人类一样,通过学习已见过类的视觉特征和所有类的附加属性信息,能够实现对见过类和未见过类样本的分类。考虑到未标注样本和标注样本皆取自生活,分布相似,充分利用现实中的未标注样本对模型进行训练,能更好地应
日益增长和日趋复杂的信息传输需求驱动下,新一代移动通信系统技术应运而生,也就是5G。其中,大规模多输入多输出(Multiple-Input Multiple-Output,MIMO)的技术能够满足各项指标要求。对于使用MIMO技术进行信息传输的,比如空间较充沛的自由度,能够依据较多用户相应的下行信号进行协作,以此来干扰偷听者的信号。基于此,利用Massive MIMO所带来的丰富的物理层信息来进行
如今越来越多的影视作品选择采用后期拟音的方式“创造”声音,拟音作为影视声音创作中不可或缺的组成部分,不论是在营造真实感还是在提升表现力方面,都起着至关重要的作用。笔者通过文献研究发现拟音是一门技术与艺术高度融合的技艺。技术是实现艺术构想的重要手段,但在已有的拟音研究文献里,涉及到创作思路和方法技巧的文献并不丰富。当创作者回归到创作本身,如何拟音、思路是什么、方法技巧有哪些才是指导拟音创作的关键。因
通过对德宏景颇族“树叶信”的研究及相关调研的展开,笔者对该文化产生了极为浓厚的兴趣,并结合所学的首饰设计内容,产生了总结“树叶信”情感内涵,提取设计符号元素,借助首饰设计进行情感化表达的想法。本课题通过对“树叶信”表意物及其语意的对照分析,对其中独特的情感内涵和文化价值进行剖析,从表意方法和制作方式上探寻“树叶信”设计符号元素的提取过程及设计实践的具体表现方法,结合情感化设计中基于人体感知系统的设
为了监督非正式部门的退休问题,国民保险信托基金会(SSNIT)的非正式部门养老金于2005年在加纳建立,这是为了使非正规部门的雇员能够根据基于三级养老金计划的《766号养老金法案》为其退休提供自愿捐款。但自成立以来,非正规部门雇员所给予的资助低于预期。本研究旨在明确影响非正规部门雇员决定加入该计划的因素,比较不同地区的决定因素,此外本文还将确定影响他们每月对该计划资助额的因素。本研究是为了通过宣传