基于CCRF-AL方法的中文电子病历命名实体识别研究

来源 :北京化工大学 | 被引量 : 0次 | 上传用户:dsgver454g
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年我国医疗软硬件设施愈发完善,医院信息系统(Hospital Information System,HIS)在各大医疗机构得到了普及,积累了大量的电子病历(Electronic Medical Records,EMR)数据。EMR是临床诊断和治疗的真实数据,具备较高的医学研究价值。信息抽取技术能够从海量的EMR文本中获取研究所需的数据信息,而命名实体识别(Named Entity Recognition,NER)是信息抽取技术的基础及关键。EMR文本中含有大量的隐私信息,目前没有大规模的公开语料可供研究所用,研究语料的缺乏阻碍了我国医疗领域NER研究的发展。中文语言符号的特点,医疗领域EMR文本及实体的特征,也增加了基于中文EMR文本NER的难度。为了能够在小规模训练数据的情况下提升实体识别的效果,本文对中文EMR文本及实体特征进行了分析,由词特征,词性特征,上下文特征,词边界特征和实体标识词特征构成特征集,搭建了基于实体特征的层叠条件随机场(Cascaded Conditional Random Fields,CCRF)模型。为了能够保证模型性能的同时降低训练数据的规模,减少人工标注的工作量,对基于不确定性的主动学习(Active Learning,AL)方法进行了改进。利用初始训练数据训练CCRF模型,从未标注的数据中选取Flag值大于0.5的数据加入到候选池中,再从候选池中选取Similar值小于1的数据进行人工标注后追加到训练数据中。利用更新后的训练数据再次训练CCRF模型,直到识别效果的F值变化小于0.5时停止迭代。该方法在小规模训练数据的情况下改善了实体识别的效果,对中文EMR文本中的疾病名,药物名和症状名实体进行识别,识别效果的F值分别达到了84.66%,91.35%和92.41%。实体识别效果的提升能够在改善信息抽取结果的同时推动医疗领域自然语言理解的发展。
其他文献
传统的缓蚀剂在化学酸洗过程中存在溶解度小、毒性大、稳定性差、生物降解性差和成本限制等问题,会给环境和生态带来严重的危害。因此,开发对环境不构成破坏作用的绿色缓蚀剂
随着信息科学技术的飞速发展,互联网思维几乎席卷了所有产业,大多数全国性连锁的零售商选择发挥自身的优势资源,搭建线上销售渠道,这种做法被称为多渠道销售。通过经营多渠道
煤矿井下噪声危害严重,井下工作场所由不同类型巷道组合而成,巷道的截面形状、大小、长短各不相同,对噪声的衰减产生影响。巷道中产生的噪声在巷道中传播衰减也各不相同,在不
烷基化汽油清洁、无污染,是商品汽油的优良调和组分。但现有制备烷基化汽油的工艺中使用的催化剂均为浓硫酸或氢氟酸等传统强酸作为催化剂,在产生良好作用的同时,也给环境带
未来航空武器平台将朝着全空域、宽速域、超机动等方向发展,这就要求动力系统能够在较宽的范围内维持部分负荷下的稳定高效运行。变几何涡轮技术即是支撑动力系统实现宽范围
半群S称为富足半群,如果S的每个L*-类和每个R*-类均含有幂等元。半群S称为超富足半群,如果S的每个H*-类含有幂等元。富足半群和超富足半群分别是正则半群和完全正则半群的一个自然推广。富足半群及其子类的研究是当前半群研究的一个重要领域。本文主要研究一类特殊的超富足半群,所谓正则超富足半群。超富足半群S称为正则超富足半群,如果S的幂等元集成正则带。正则超富足半群是正则纯正群在超富足半群类中的一个推
钢框架-钢板剪力墙是一种分灾式易于修复的结构体系,其具备“先墙板,后框架”的理想破坏机制,内填墙板在结构中充当了保险丝的作用。在中震情况下,内填钢板发生屈曲变形,但框架仍能保持弹性,没有残余变形,结构仍然具备很高的安全储备。若此时更换或加固“保险丝”(内填墙板)将会是种方便且有效的修复方式。另一方面,对震后受损结构进行修复,有助于人们快速恢复正常的生产生活,同时也避免了拆除造成巨大的浪费。在此现实
由于环氧树脂优异和可调控的物理和机械性能,它已广泛用于涂料、粘合剂、层压电路板、电子元件封装和高性能复合材料。然而,超过90%的环氧树脂来自双酚A,研究证明双酚A对环境
碳纳米材料由于其优异的物理、化学特性可应用于机械、热学、电学、光学和生物医学等领域,因而吸引了各界研究人员的广泛关注。如何实现碳纳米材料的稳定可控、大规模、低成
凹凸棒石(ATP)作为吸附材料广泛应用于水处理领域,研究表明它是一种高效除磷吸附剂,但其再生较难,吸附饱和后形成一种新型污染源,导致应用方面有一定的局限性。研究以饱和ATP