面向TNM分期的中文影像报告肿瘤信息提取研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:gyquan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
TNM临床分期是癌症诊断及治疗的关键步骤,但由于临床分期需要依赖大量不同来源的信息,而供医生决策的时间有限,很难准确地提取分期相关信息,因而目前临床分期存在较大偏差。利用计算机技术,在癌症分期时为医生决策提供必要的分期相关信息,可提高癌症临床分期的准确性。但TNM分期相关信息大部分以自然语言形式存在于各种影像报告中,无法被计算机直接利用,因此从影像报告中自动提取TNM分期相关信息是必不可少的环节。此外,提取的TNM分期相关信息还可以用于治疗方案推荐、预后评估等其他环节。目前的肿瘤信息提取研究工作存在如下不足:1)非专门面向TNM分期,对分期信息的覆盖不全面;2)提取结果仍是文本形式,无法直接用于分期辅助决策;3)受限于所使用的提取方法,无法从报告文字中得到可解释的证据,不利于医生对系统的信任。本论文针对上述痛点,以肺癌为研究对象,提出一种面向TNM分期的中文影像报告肿瘤信息提取方案,并以CT报告为例开展研究。该方案利用命名实体识别和关系抽取组成的信息提取技术,从报告中自动获得与分期相关的文字表达,再利用规则对获取文字进行分析推断,得到布尔型或数值型的分期信息,可直接服务于分期决策,并且提取信息具有报告文字作为证据支撑,具有可解释性。本论文的主要内容包括:1)本论文以肺癌TNM分期指南为依据,将指南中以文字表述的、多项条件组合在一起的复合型分期条件拆解为多个独立的、结果为布尔型或数值型的条件,这些条件即为可直接用于决策支持的分期信息。2)本论文通过对50份实际CT报告的解析,设计出可用于推断上述分期条件的15种实体类型和4种关系类型,并对342份CT报告进行标注,共得到6152个标注实体和4285个标注关系。3)本论文结合Glove字向量和结巴分词构建了 BiLSTM+CRF模型和IDCNN+CRF模型用于命名实体识别,并以3种不同长度的文本训练两个模型,结果显示在以分号断句训练的BiLSTM+CRF模型结果更好,精准匹配下的精确率为88.94%,召回率为90.75%,F1值为89.83%,宽松匹配下的精确率为93.91%,召回率为94.97%,F1值为94.41%。4)本论文提出了 一种加入先验知识的BiLSTM+Attention模型,在4285个标注关系上对该模型与普通BiLSTM+Attention模型以及多核CNN模型进行训练与测试。五次随机对照实验结果显示,加入先验知识的方法能够提升模型结果,精确率为96.73%,召回率为96.38%,F1值为96.53%,分别提高了 1.00%,0.55%和 0.79%。5)本论文针对命名实体识别和关系抽取结果难以利用的问题,提出一种基于规则的分期条件推断方法,设计并实现了五项核心推断步骤,解决了CT报告涵盖的全部分期条件的推断。在前两步的金标准数据集上取得了精确率99.83%,召回率97.75%,F1值98.78%的结果。本论文联合了命名实体识别、关系抽取和分期推断三步,对所提出方案进行了整体评估,取得了精确率98.33%,召回率96.20%,F1值97.26%的结果,证明了信息抽取方案的有效性。本论文研究的中文影像报告肿瘤信息抽取方案不但对于CT报告的肺癌TNM临床分期信息提取实现了较高的准确率,而且可应用在其他影像报告的TNM分期信息提取上。
其他文献
作为当代大数据背景下的新兴数据分析技术,可视化技术为数据分析的过程和结果提供一种直观明了的展示方式。空间数据可视化是信息可视化的重要组成部分,地图则是空间数据可视
随着时代的发展,世界人口爆炸式增长与人口老龄化所衍生出的一系列问题受到人们的重视,中老年人等特定人群的健康保健问题亟待解决。然而,传统的集中式医疗监控方法在对病患
供需失衡本身是一个中性的经济学概念,供给和需求总是在价格机制调节下不断向均衡状态收敛。然而,对配置效率和动态效率形成严重抑制作用的长期结构性供需失衡现象表明,我国的价格机制、竞争机制和产业进入退出机制仍存在制度性缺失和发展性障碍。当前我国制造业长期结构性供需失衡可以从高新技术产业和传统产业两个维度来分析,其中高新技术产业的供需失衡是发展性障碍造成的,主要表现为技术供给不足、过度进入、市场培养有限等;传统产业的供需失衡是制度性障碍造成的,主要表现为落后产能过剩、品牌效应不足等。为解决制造业长期结构性供需失衡
慢性阻塞性肺病、肺气肿、肺癌等肺部疾病严重威胁人类的健康和生命安全。肺功能定量评估对于肺部疾病诊断和治疗具有重要意义。基于肺部组织分割的肺功能评估系统能够对全肺
由于现代网络环境的复杂性以及多媒体数字产品的透明和易操作性,各种盗版、非法篡改、恶意传播越来越容易操作,严重危害了多媒体信息的安全。数字水印技术因其能解决以上问题,成为研究的热点。经奇异值分解得到的奇异矩阵,因稳定性强而被广泛应用到数字水印算法中。但目前,大多数的基于奇异值分解的数字水印算法存在一定的虚警率问题,且固定的嵌入因子不能同时兼顾不可见性和抵抗多种外界攻击。本文针对奇异值分解存在的虚警率
缓冲区溢出是一种非常普遍并且危险的漏洞,在各种操作系统和应用软件中广泛存在。利用缓冲区溢出攻击,可以导致程序运行失败、系统宕机、重新启动等后果。更为严重的情况可以
随着互联网及社交网络的快速发展,微博信息更新速度爆炸增长,用户需要通过平台获取自己感兴趣的内容,然而庞大的信息流使用户面临“信息过载”的问题。基于这样的场景,分析挖掘用户的兴趣倾向,从而实现精准提供高质量、用户感兴趣的个性化信息及商业广告推送服务,对平台及用户都是行之有效的方法。在微博平台中,用户既存在长期的兴趣点,也会根据时间和当下流行事物的变化,产生短期的新生兴趣,而且随着互联网的发展,博文数
近年来,伴随互联网的快速发展以及生活节奏的加快,人们越来越习惯于从互联网平台中获取和分享信息,这也导致网络中产生了大量的短文本信息。一些内容分发、信息检索、社交网
近年来,随着科学技术的飞速发展,对数据处理技术提出了全新的、更高的要求。在多传感器系统中,由于传感器的测试精度、数据的采集成本、系统组成的多种环节以及外部环境等因
森林对于生态系统的可持续发展起着关键作用,而森林火灾的发生严重威胁着生态系统发展。林火发生初期,由于树木的遮挡,火焰很难被发现,但烟雾却易被监控视频采集。相对传统的