基于嵌套命名实体识别的肿瘤知识图谱构建

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:seny668
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,中国肿瘤的发病率和死亡率持续上升,据2019年国家癌症中心发布的中国癌症数据结果显示,近10年恶性肿瘤发病率每年保持约3.9%的增幅,死亡率每年保持2.5%的增幅。如何利用已有的数据资料进行归纳总结,挖掘出潜在的、有效的数据关系,以加强肿瘤防治工作,成为研究者们迫切需要解决的问题。随着全球信息化进程的发展,互联网上散落了越来越多的数据,其中蕴含丰富的医学及肿瘤学知识,挖掘其中有价值的信息,构建肿瘤知识图谱,可以推动语义技术在医疗信息领域中的研究与应用,协助医生更方便的获取知识指导,带来更高效精确的医疗服务。针对肿瘤知识图谱的构建需求,本文的主要工作包括以下两部分:(1)针对医疗数据中常见的嵌套实体问题,提出了一个基于BERT的嵌套命名实体识别模型BLBC(BERT-Layered-Bi LSTM-CRF)。该模型使用动态堆叠平面NER层来识别嵌套实体,本文将当前层检测到实体输出进行融合,为实体建立新的表示形式,然后将它们输入到下一个平面NER层中,这样可以充分利用内部实体中的编码信息来提取外部实体。另外,针对传统预训练模型特征提取能力不足的问题,为了提升其精确率、召回率,本文引入具有更强文本特征表示能力的预训练模型BERT作为特征表示层。本文在中文的医学数据集CCKS2017与英文的医学数据集GENIA上进行实验,证实BLBC模型的效果更佳。(2)利用百度百科和知网论文中的肿瘤相关资源,设计并构建起了一个具有一定规模的肿瘤知识图谱。本文对百度百科的肿瘤相关页面和知网的肿瘤相关论文进行爬取,将半结构化数据直接整理生成三元组。对非结构化数据,首先针对数据中嵌套实体的情况使用BLBC模型进行命名实体识别;之后使用半结构化数据形成的三元组与CN-DBpedia知识库共同进行远程监督,利用PCNN模型进行关系抽取;最后将非结构化数据与半结构化数据形成的三元组合并,形成一个拥有5247个三元组、3189个实体及204个关系的肿瘤知识图谱,利用Neo4j图数据库完成对知识图谱的存储。
其他文献
本文主要研究了来自于经典场论中的两类模型解的存在性.在第一部分中,对于出现在Skyrme理论中的Sakurai模型,通过适当的Ansatz可将其化成非线性常微分方程的两点边值问题,然
页岩裂缝的压开和扩充是压裂的关键技术,和钻井过程中岩石可钻性的原理非常相似,因此在页岩被压裂的过程中也存在可压性的概念。“可压性”是指储层形成体积压裂复杂裂缝网络
我国对二氧化碳致裂器的使用和研究多在煤矿领域,近年来,二氧化碳致裂器的应用逐渐扩展到了露天破岩领域,由于缺乏相应的理论研究,致使该设备在露天破岩领域的应用受到了一定的限制。本文在基于国内学者对二氧化碳致裂器在煤矿领域应用和理论研究的基础上,分别采用了理论分析,现场实验和数值模拟三种手段,对二氧化碳致裂器在露天破岩领域的作用机理和施工参数优化进行了研究,完善了该设备在露天破岩领域的理论基础,提高了该
三维重建是一种可以通过多张二维图像重建对象的3D几何形状和空间位置信息的方法,它是计算机视觉领域的研究重点之一。传统的图像三维重建系统通常会遇到干扰,例如摄像时的环境变化,阴影,光照或其它物体的遮挡,这样无法准确识别和定位3D物体。为了克服以上普遍存在的问题,基于重建对象的纹理特性、梯度变化以及对象的模糊程度得到的深度敏感信息可以有效地融入计算中。因此,在三维重建中如何准确的利用图像深度感知信息是
借助基于深度学习的新一代人工智能技术,人脸识别落地商用,获得成功。然而,当前大多数的人脸识别系统在环境受限的情况下工作,需要用户主动配合,对局部遮挡状态下的人脸识别效果不佳。另外,当前取得优异性能的人脸模型均是运行速度较慢的大型卷积神经网络,运算量大,参数量多,无法满足某些特定场景下的需求。为此,本文对面向嵌入式的、非受限环境下的人证匹配模型开展研究。具体来说,本文立足于人证匹配场景,着眼于人脸局
新版《国家普通高中英语课程新课标》(2017版)确立了英语学科核心素养,强调对学生语言能力、文化意识、思维品质和学习能力的综合培养,其中思维品质注重学生逻辑、批判和创新思维能力的培养。写作是一个反映逻辑思维的过程,与逻辑有着密切的关系,没有清晰的逻辑,写作难以出色表现。而逻辑连接词不仅能够连接词汇、短语和句子,还能表达它们之间的语义逻辑关系,反映写作者的逻辑思维。在高中生英语写作中,逻辑连接词的不
由于微机械陀螺仪具有体积小、低功耗的优点,其在航空、航天和航海领域具有广阔的应用和发展前景。随着科学技术的发展,微机械陀螺正逐步具有集成化、高性能的特点。通过数字化和专用集成电路技术可以高信号控制电路的集成度从而充分发挥微机械陀螺的优点。微机械陀螺驱动系统一般采用闭环驱动,而闭环驱动系统又分为模拟闭环驱动系统和数字闭环驱动系统。其中,闭环驱动控制包括了相位控制和幅度控制。模拟闭环驱动系统采用分立的
钢铁产业是我国的支柱产业之一,降低钢坯热处理过程中的事故率对提高钢铁产品的质量、减少污染物排放和提高企业经济效益,有着极其重要的意义。目前普遍应用的连续式热处理工业加热炉因炉底管道易发生漏水和断裂事故,影响正常生产和效益,多年以来一直备受关注。本文以推钢式加热炉为例,通过研究管道内部水力循环的传热特性及管道结构应力的分布特点,可为管道结构改进优化和降低断裂事故提供参考。本文从炉底管道在加热炉工作过
FPSO是深海油气田开发的关键装备,主要功能为油气处理、存储和外输。船体梁的结构设计是FPSO整体设计的重要组成部分之一。船体梁极限强度与FPSO船体安全性有着至关重要的关
当前工业的快速发展引发了严重的能源和环境危机。光催化为解决这些问题提供了一种潜在的策略,因为它可以直接将太阳能转化为可用或可储存的能源。然而,上述应用要求光催化剂