基于Lattice LSTM的医学文本中文命名实体识别研究与实现

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:renj19861123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
医学文本数据中记录着详细的临床资料,由于包含大量真实且珍贵的临床信息而受到科研工作者的关注。命名实体识别是文本信息处理的基础,是充分挖掘和利用医学文本中宝贵信息的重要环节。通过命名实体识别技术能够准确识别出医学文本中人们所需要的信息,可以帮助医务人员进行临床决策、循证医学、疫情疾病监控,从而提高医院的整体医疗质量。本文提出了一种基于Lattice LSTM(Long Short-Term Memory)的医学文本命名实体识别算法。该算法针对现阶段医学文本中文命名实体识别算法无法同时兼顾字符序列信息和防止错误传递问题进行了优化,结合使用医学文本序列的字符信息和词语信息,通过正确识别命名实体的文本边界来提升整体的命名实体识别效果。在词嵌入层,本文使用大量医学文本和专业医学词典训练字、词向量模型,利用字、词向量模型可以把医学文本信息更好的嵌入到算法模型中。为了验证算法的有效性,在竞赛数据和四川省肿瘤医院的首次病程记录数据上进行了测试,对比医学文本中文命名实体识别领域的另外两个经典算法条件随机场(Conditional Random Field,CRF)和LSTM-CRF,结果显示无论是竞赛数据还是真实病程记录数据,本算法的准确率比其它算法都要高出0.3%以上,证明了本文提出的算法在医学文本中文命名实体识别领域可以得到略优的识别效果。在医学文本中文命名实体识别算法的基础上,本文设计并实现了一个电子病历管理分析系统。该系统不仅可以对电子病历进行简单的存储管理,还可以将文本电子病历转化为树形结构,方便对文本电子病历进行结构化展示。为了方便医务工作者进行临床科研,该系统提供了相似病历搜索功能,帮助医务工作者汇集大量相似病历,对某种疾病症状进行分析讨论。系统还提供了文本标注功能,用来构建医学文本标注语料库。
其他文献
<正>据《史记·魏豹彭越列传》,西汉初,梁王彭越被告发谋反,废为庶人。吕后向刘邦建议斩之以除后患,刘邦同意,“于是吕后乃令其舍人告彭越复谋反,廷尉王恬开奏请族之。上乃可,遂夷越
<正>陈丹青:回看五四,甚至不只是五四,应该讲是清末民初那一段,可能是中国历史上特别有意思的一段,就是元气淋漓。出来的人各色各样都有,有烈士型的,然后有风流型的,然后有投
<正>葛浩文(Howard Goldblatt,以下简称"葛氏")是一位"著名的中国当代文学学者和翻译家"②,也是"近年来翻译中国现当代文学作品数量最多、贡献最大的西方学者"③。葛氏译著颇
解构主义建筑因"破碎"和"颠倒"的扭曲形态常被人们误解成是继后现代主义建筑的一种只追求建筑外表夸张形态的建筑设计风格,是不具备任何意义的。本文从建筑符号学的角度,即解
《京华烟云》中的女主人公姚木兰和《乱世佳人》中的女主人公斯嘉丽对待爱情与婚姻的态度和行为截然不同:一个为了婚姻,放弃了爱情;一个则勇敢地追求自己的爱情,为了爱不择手
存款结构变化分析一直是金融结构研究中的重要问题,已有许多结论,但作为我国经济相对发达,同时又具有明显与国内其他地区不同经济发展历程和特点的浙江,存款结构变化是否也会
对FANUC M-6iB型机器人的运动学逆解进行了推导分析。采用前置D-H方法建立了运动学模型,通过对转换矩阵的观察分析,计算出了解析逆解。使用典型空间连续曲线作为目标轨迹,在M
入世在即,入世会给整个家电行业带来什么冲击和影响,我们应采取什么对策,这已成为一个非常现实而紧迫的任务。大部分观点认为,加入WTO,国内汽车、农业、金融等行业会受到较大
目的 探讨饮食、运动对肥胖症患者胰岛素抵抗和血脂、血压的影响。方法 选取肥胖症患者54例,随机分为两组,干预组进行为期24周的饮食、运动干预。结果 接受饮食、运动干预24周