中文电子病历实体识别算法研究

来源 :西北师范大学 | 被引量 : 0次 | 上传用户:biiq123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
最近几年,“智慧医疗”逐渐融入人们的生活,2020年,新冠疫情使得“互联网+医疗”更加火热。如何从大规模中文电子病历数据中获取有价值的医疗信息成为研究的重点,电子病历中实体抽取是研究这一问题的基础。但是,中文电子病历所包含的疾病名称、临床症状、药品名称等较为复杂;不同医生在使用专业术语上有差别;不同实体类别之间边界不清晰。以上这些问题都加大了中文电子病历中实体识别的难度。本文针对这些问题,首先,制定了一套中文电子病历标注规则,然后,在规则的指引下对实证数据集进行标注,最后,在此基础上充分发挥多种模型算法的优势进行实体识别。具体研究工作包括:(1)提出了一套新的中文电子病历标注规则,并在实证数据集上进行标注和验证。在传统的中文电子病历实体识别研究中,对于实体的划分并不详细规范,本文除了将疾病名称、药品名称、手术名称等常见医疗实体划分出来,还把修饰实体,例如:量词、程度修饰词等实体也划分了出来,因为这些实体也同样蕴含着丰富的医疗价值。另外,对于各类实体存在的边界模糊难以识别的问题,本文提出了一套复合标注规则,很好地解决了这一难题。(2)提出了基于CRF模型的实体识别方法。条件随机场(CRF)模型在进行实体识别时,通过滑动窗口的移动来判断窗口内标签之间的关系,通过条件概率转移矩阵较为准确地计算出某个标签前后大概率出现另一个标签的概率。本文结合中文电子病历语料的特点对CRF模型的特征模板进行设计,再将该模型用于中文电子病历的实体识别中。与多种机器学习算法做实验对比,CRF模型结合自主制定的标注规则进行中文电子病历的实体识别得到了较好的实验结果。(3)提出了基于扩张卷积CNN-CRF模型的实体识别方法。CRF模型在实体识别中的优势在于识别字符与字符之间的关系,但是,不能很好地结合长依赖特征识别语句与字符之间的关系。卷积神经网络(CNN)可以通过卷积层较好地表达数据局部信息,再通过池化层获得具有代表性的特征。本文在CNN基础之上,使用扩张卷积扩大感受野范围从而学习到更多的语义信息进行实体识别。再将识别结果输入到CRF模型,进行一遍识别上的修正。既结合了语义上下文信息,又结合了标签与标签之间的关系进行实体识别,相比于CRF模型,实验结果有了显著提升。(4)提出了基于BiLSTM-CRF模型的实体识别方法。CRF模型不能结合具体的语句信息作出判定,而深度学习中的双向长短期记忆神经网络(Bi LSTM)模型可以通过自身的多层“门”结构来选择遗忘和记忆语句中的关键信息,从而判断语句与标签之间的关系。因此,本文结合CRF与Bi LSTM在实体识别中各自的优势,使用Bi LSTM-CRF模型进行实体识别,得到了90.67%的准确率,90.70%的召回率,90.68%的F1值,优于本文目前已知的这一领域的实验结果,可以达到实际应用的需要。
其他文献
注意力流网络是复杂网络领域的重要分支,网络表征学习是将网络中的节点属性以及结构信息等进行合理表达的重要方式,注意力流网络的表征学习不仅能够将网络信息有效地表达,还具有广泛的应用场景。链路预测作为网络表征学习的重要应用场景,其主要是利用已知的节点以及网络结构等信息对节点间未来可能连边的情况进行预测,解决网络中缺失连边信息的问题。注意力流网络的链路预测研究不仅能够认知在线用户的行为偏好,而且能够针对用
本文基于中国互联网信息中心(CNNIC)提供的在线点击行为大数据,使用网络科学的建模方法构建注意力流网络,研究注意力流网络的异构性,分析站点之间的差异性。异构性研究能够很好的刻画注意力流网络的结构特征,在站点重要性排序分析、网站影响力分析、网站分类、社区发现等研究中发挥重要作用,进而,通过异构性研究为注意力流网络中社区发现研究提供理论指导,实现注意力流网络的有效社区结构划分,社区结构研究对人们的生
在大数据时代,数字化信息显得尤为重要。人们通常使用智能手机等设备对书籍等纸质文档拍摄进行数字化存储和应用。数字化的文档能够及时地为人们提供信息,快速地实现资源的共享。但是在使用智能设备拍摄书籍文档图像时,会发生不同程度的变形。在拍摄较厚的书籍页面图像时,会产生由于页面厚度导致的页面弯曲变形和拍摄角度不同导致的透视变形。变形的文档图像一方面会影响人们的视觉查看效果,另一方面对文档图像内容的识别、后期
藏羊是我国三大原始绵羊品种之一,主要分布在青藏高原地区,其皮毛、奶和肉都有很高的经济价值,是当地牧民重要的收入来源。在青海地区,藏羊通常为舍饲与半放养式结合的养殖模式,当天然草场可以为牲畜提供充足的牧草时,当地牧民会把牲畜赶到高山草场放牧,但因草场上的粪便通常未能及时集中处理,增加了藏羊之间肠道寄生原虫相互感染的机率。肠道寄生原虫可定殖于人类和多种动物的肠道中,被感染的动物临床症状一般表现为厌食、
猪瘟病毒(Classical swine fever virus,CSFV)引起的猪瘟(Classical swine fever,CSF)是一种高度传染性疾病,给全世界的养猪业造成了严重的损失。尽管猪瘟在部分国家和地区已被净化,但在我国仍时有发生,持续影响着我国养猪业的健康发展。猪瘟病毒与其他动物病毒一样,在感染和致病过程中会利用宿主细胞成分。因此,研究分析CSFV与宿主细胞成分的相互作用具有十
随着“互联网+”和在线教育模式的发展,教育信息化已经在我国各级教育领域得到了较好的应用,并且取得了不错的效果。而微信作为国内用户量最大的即时通讯软件,很受广大学生的青睐。为了进一步提高中职学校教学质量,笔者结合自己多年中职教育教学实践的经历,分析目前教育教学过程中各类辅助教学存在的问题与不足,将利用微信公众平台辅助课堂教学与传统教学进行了优势互补,从而能够大大地激发学生学习课程的兴趣,提高教师课堂
图像分割是计算机视觉领域的关键课题之一。在目标跟踪、行人检测、交通监控和医学图像分析等领域广泛应用。基于深度学习的图像分割模型,在大量人工标注的像素级标签下取得了显著成效。然而,对于强监督图像分割任务而言,收集大规模精确的像素级标签需要消耗昂贵的人力物力。同时,随着图像场景愈加复杂,标注的准确性也会随之下降。基于弱监督学习的图像分割方法,使用监督信息较少、标注成本较低的粗糙标签,如边界框、涂鸦、点
随着计算机、网络信息技术与社会的快速发展,人们的学习方式正在发生着巨大的变化。虽然传统的教育方式仍有着不可取代的作用,但越来越多的人们开始选择在线教育。特别是当我们遇到特殊的情况,无法进行课堂的线下教学时,在线教育就成为了一个非常有效的解决方法。面对着海量的课程资源,能够为用户提供符合其兴趣的个性化学习课程就十分的有必要。所以,本文设计并实现了一个基于个性化推荐的在线教育系统,来满足用户日益增长的
隐孢子虫(Cryptosporidium spp.)、结肠小袋纤毛虫(Balantioides coli)和毕氏肠微孢子虫(Enterocytozoon bieneusi)是寄生于人及多种动物肠道内的三种重要原虫,均通过粪-口途径在世界各地广泛传播。三种病原的感染不仅会造成畜禽生产性能下降,也可对公共卫生安全构成威胁。陕西省是中国西北部发展地方特色生猪产业的重要地区,但该省猪中三种肠道原虫的感染情
猪细小病毒(Porcine parvovirus,PPV)是引起初孕母猪繁殖障碍性疾病的重要病原,PPV感染母猪临床上主要表现为不发情、流产、产死胎等症状。PPV基因组主要包含两个开放性阅读框(Open reading frame,ORFs)ORF1和ORF2,ORF1编码病毒非结构蛋白NS1和NS2,ORF2编码病毒结构蛋白VP1和VP2。其中NS1是PPV最重要的非结构蛋白,对病毒DNA复制是