面向医学文本的命名实体识别与关系抽取研究

来源 :郑州大学 | 被引量 : 0次 | 上传用户:Arqiu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着医学信息技术的快速发展,非结构化的医学文本信息日益丰富。从临床电子病历、医学文献等医学文本中提取出有价值的信息是推进医学智能化研究的重要基础。信息抽取能够对非结构化文本中的信息进行分析、识别和分类,其中命名实体识别和关系抽取是信息抽取的两个重要方向。虽然已有不少研究者将信息抽取技术应用于医学领域,但由于医学语言表达的多样性、关系描述的隐含性和复杂性以及医学信息抽取相关语料库的稀缺,导致医学领域的命名实体识别与关系抽取任务难以达到理想的效果。根据不同的研究对象,本文主要做了以下工作:(1)针对中文临床电子病历的数据规模小和现有网络泛化能力不强的特点,提出一种基于跨领域迁移的医学命名实体识别网络(T-Bi LSTM-CRF)。该模型首先利用非医学领域的数据集对源网络进行预训练,再使用临床医学数据集对目标网络的参数进行调优。在源网络训练过程中,网络参数得到了初步的训练,并初始化目标网络。目标网络通过源网络的有效引导,加速了收敛过程,并进一步增强模型的学习能力。实验结果表明,该方法对中文电子病历中的医学实体具有较好的识别效果,在CCKS 2018评测数据集上的严格F1值达到85.43%。(2)为了充分挖掘中文医学文本中实体之间隐含的语义关联,提出一种融合注意力机制的BERT-Att-CNN模型。首先使用BERT的双向Transformer对输入的医学文本序列进行编码,获得更深层次的语言特征表示;其次,设计了融合注意力机制的CNN有选择性的抽取特征;最后,选用标签平滑交叉熵损失函数来优化模型训练,缓解类别标签不均衡带来的负面影响。针对医学领域的关系抽取数据集欠缺的问题,本文对医学教材、临床路径等医学文本进行人工规范化标注,构建了中文医学数据集Chinese Medical 2019。实验结果表明,BERT-Att-CNN模型与其他方法相比具有更好的性能,在SKE 2019通用数据集和自建的Chinese Medical 2019数据集上F1值分别达到77.10%和48.47%。
其他文献
研究了牵引电机换向器云母槽下刻加工的实际工况,针对现有云母槽下刻机床无法补偿云母槽中心线偏差的情况,提出了一种偏差补偿方法,建立了偏差补偿数学模型,并设计了偏差补偿控制
对于直线电机驱动XY平台,非线性的系统动态、曲线轨迹的轮廓误差模型相对复杂以及传统控制无系统化参数调整规则等问题影响其轮廓加工精度。采用适用于非线性运动系统轮廓控
阐述了在机床运转状态下进行相对激振试验的方法及其原理,并利用此方法测定了K360A数控车床的动态特性,分析了机床的薄弱模态及其对机床性能的影响。同时,通过机床运转和静止
【研究背景和目的】秦艽为龙胆科、龙胆属、秦艽组植物的干燥根,又名大叶秦艽、大叶龙胆、西秦艽,为多年生草本植物,具有祛风湿、清湿热、止痹痛、退虚热等功效,归胃、肝、胆
为揭示Al2O3/(W,Ti)C陶瓷刀具断续车削淬硬钢时的切削力、刀具温度以及刀具应力的变化规律及相互关系,采用有限元方法进行金属切削仿真。仿真结果表明,断续车削过程中,刀具承受