基于神经网络的中文电子病历命名实体识别

来源 :北京邮电大学 | 被引量 : 12次 | 上传用户:honeypan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着国内医疗领域信息化的日渐完善,积累的电子病历数据越来越多。这些海量的数据不仅拥有巨大的商业价值也拥有巨大的科研价值。然而,这些数据并不是结构化的文本。有用的信息分布在杂乱的数据中,不能被快速地、有效地利用起来。因此,对中文电子病历的智能分析和使用显得非常重要,其不仅能创造巨大的价值,也可以更快地加速医疗领域的发展。基于此,本课题对中文电子病历文本中的命名实体识别任务进行了研究。命名实体识别作为信息抽取的基础工作,旨在识别出病历文本中拥有最基本语义的实体单元,为后续的其他信息抽取任务提供支持。本课题在通用领域命名实体识别的基础上,针对医疗电子文本的特点提出了相应的改进方案,并据此设计和实现了一个完整的中文电子病历命名实体识别系统。主要工作包含以下几个部分:1)收集和标注了一批中文电子病历命名实体的数据。由于国内的相关研究起步比较晚,没有公开的、有影响力的数据集以供研究使用。为数不多的个人研究中也没有将自己的数据集进行公开。本课题在研究初期通过收集病历文本和相关实体词典进行了数据标注工作。2)设计并实现了中文电子病历命名实体识别系统。首先设计并实现了完整的命名实体识别系统,为进一步的分析利用电子病历提供了基础;然后基于现有文献重点设计了命名实体算法,实现了附加丰富词特征的循环神经网络和条件随机场联合模型。该模型通过再拆分中文分词结果的方式设计细粒度的词向量作为输入,减少歧义分词对命名实体识别的影响;根据中文电子病历实体的特点,本文设计了词性特征、词典特征等特征作为神经网络自动学习特征表示的补充,提高了结构复杂的长实体的识别效果。3)设计并实现了距离敏感的等长Seq2Seq模型。本文通过约束Seq2Seq模型为等长结构,将其迁移应用到命名实体识别这类序列标注任务;结合中文病历文本的语言特性,本文提出了基于距离修饰的改进注意力机制,并取得成效。另外,本文提出的改进模型在全国知识图谱与语义计算大会2017年发布的电子病历命名实体识别评测任务上取得了良好的效果。
其他文献
MC1R基因与黑色素细胞的功能、皮肤的色素沉着和皮肤癌风险相关。本研究MC1R基因在不同毛色绵羊皮肤组织中的差异表达及定位,以探索MC1R基因对皮肤色素生成方面的重要作用,确
<正>中国共产党在97年的光辉发展历程中,始终不忘初心、牢记使命,在为中国人民谋幸福、为中华民族谋复兴的征程中砥砺前行。进入新时代,踏上新征程,我们要深刻领会中国共产党
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
期刊
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
为解决缺乏给水管网仿真装置的问题,自主设计开发了给水管网仿真系统。该系统由给水管网物理实验模型与在线监控云服务系统两部分构成。物理实验模型设置32个测控点、4条支路
以华能福州电厂三期扩建2X660MW燃煤机组工程输煤栈桥施工为例,阐述钢结构栈桥吊装设计,介绍钢结构栈桥整拼整吊的吊装设计。
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
[关键词]语文教学;识字;生活;动手;阅读  [中图分类号]G623.2 [文献标识码]A  [文章编号]1004-0463(2012)06-0076-01  识字教学是语文教学中的一个难点,稍有不慎就会陷入枯燥、乏味的境地。如何让识字充满情趣,使学生们在轻松、愉悦的氛围中接受这项学习任务呢?  一、开发资源。在生活中识字  生活中蕴涵着丰富的教育因素,学生的校内外生活是学校教育资源开发的重要领域
长期以来,中国古典戏曲的研究者,根据李斗《扬州画舫录》等书的记载,认为焦循有关戏曲的论著,除《剧说》和《花部农谭》外,还有一部《曲考》;叉根据日人进君武雄的说法,认为《曲考》