基于半监督学习的中文电子病历实体识别和实体关系抽取研究

来源 :海南大学 | 被引量 : 0次 | 上传用户:historycode
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
电子病历包含了详细、全面、准确的患者个体健康信息。通过分析和挖掘电子病历,提取出相关的信息可以帮助构建临床决策支持系统和提供个性化健康信息服务。电子病历由于其独特的文本特点以及结构特点,使得在传统领域内的实体识别和实体抽取方法很难应用在电子病历上,所以这对自然语言处理在医疗领域的研究发展带来了很大的挑战。主要问题有电子病历的专业性,人工构建训练语料的难度非常大,且缺少统一的标注规范。为了克服这些问题,本文提出了一种基于半监督学习的中文电子病历实体识别和实体关系抽取方法。本文的研究内容主要围绕以下三个方面:(1)分析电子病历文本语言的特点以及电子病历本身结构上的特点,针对医疗领域数据标注规范的不统一以及评价方法的差异,基于现有的标注规范,构建语料库。(2)基于双向循环神经网络和条件随机场算法,利用少量标注数据以及大规模未标注数据,增加循环神经网络来进一步提取文本语言特征和结构特征,训练出更适用于中文电子病历的实体识别模型。之后结合传统的半监督学习方法,扩展数据并提高模型的识别能力。最后与目前流行的实体识别算法相比较,结果表明改进后的模型能够有效的在小规模标注语料情况下取得较好的识别效果。F值也有较为明显的提高。(3)在传统的实体关系抽取方法中,大多将实体关系抽取作为分类问题,只是将实体识别和实体关系抽取两个任务作为独立的任务来研究,忽略了实体识别任务与实体关系抽取任务之间的关联。通过改进实体关系的标注方法,并将实体识别和实体关系抽取作为联合任务共同训练。之后根据电子病历文本的结构特点,将文本的位置标签同样作为辅助信息输入给模型。实验证明,改进后的实体关系模型能够在少量训练集的条件下较好的完成识别任务。
其他文献
介绍了我国大气污染的现状,分析了造成我国大气污染的主要原因是由于我国能源结构的不合理、城市规划的不合理、机动车尾气排放管理的滞后和环境执法监督管理没有完全到位等,
铝合金具有密度小、比强度高、耐蚀性和成型性好、成本低等优点,目前已成为飞机机体结构的主要用材,其用量高达60%~80%。然而,因多种因素导致其耐腐蚀性较差,为此大多航空铝合金部件
仁术健胃颗粒在临床上广泛用于慢性萎缩性胃炎(Chronic Atrophic Gastritis, CAG)的治疗,治疗效果很好。为了探讨仁术健胃颗粒治疗慢性萎缩性胃炎的作用机制,以便更好的服务
电力系统通信是电力系统不可或缺的重要组成部分,关系到电力系统能否安全、经济、可靠运行。随着城市的快速发展和电力用户的不断增加,配电网规模的不断扩大,随时变动的监测点给
由于能源日渐趋于紧张、气候环境恶化的影响,低碳、环保、节能减排成为世界关注的话题。全球倡导低碳节能,我国承诺到2020年单位国内生产总值二氧化碳排放比2005年下降40%至45%。
铀是广泛存在于自然环境中的长寿命放射性元素,通过饮水和食物链等途径进入人体。正常人体中的铀主要来自于摄入的水、食物和空气;涉铀职业人员体内的铀则主要来源于核燃料循
低渗透储层进行常规加砂压裂常常由于压裂液破胶不彻底、残渣和滤液伤害等问题而影响压裂改造效果。压裂前的酸预处理技术可降低压裂过程中伤害,改善压裂效果。利用激光粒度
关联交易的两面性使其成为中西方财务会计研究的热点和难点问题,而这一问题随着我国全流通时代的到来,尤其是在全流通时代背景下整体上市的实现而有望得到有效的解决。因此,运用
目的探讨全麻诱导期应用阿芬太尼、芬太尼、瑞芬太尼对颅脑外伤所致的脑损伤患者脑血流动力学的影响。方法60例颅脑外伤患者随机分为三组(n=20),在全麻诱导期分别应用阿芬太尼10