中文电子病历命名实体识别研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:cheayu123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息技术的迅猛发展带动了医院的信息化建设,国家政策的支持为电子病历系统等医学信息系统的建立打下了坚实的基础,由此带来了大量的医疗数据,其中电子病历受到了广泛的关注。电子病历是在医疗活动过程中产生的重要临床信息资源,包含了大量与患者健康状况密切相关的医疗知识,充分识别电子病历中的这些知识将大大推动医疗事业的发展。鉴于目前中文电子病历发展现状,本文共开展了如下几项研究:(1)制定中文电子病历命名实体标注规范并构建命名实体标注语料。本文参考I2B2 2010给出的电子病历命名实体类型及修饰类型的定义,在专业医生的指导下制定了详尽的中文电子病历标注规范;通过对大量中文电子病历的分析,提出了一套完整的中文电子病历命名实体标注方案,且采用预标注和正式标注的方法,建立了规模为992份的中文电子病历命名实体标注语料,标注语料的一致性达到了92%以上。(2)开展基于有监督学习的中文电子病历命名实体识别研究。本文采用最大熵(ME)、条件随机域(CRF)、结构化支持向量机(SSVM)三种机器学习方法构建了命名实体识别系统,并在此基础上引入了病历特征、词典特征以及词聚类特征。鉴于中文医学词典与知识库匮乏的现状,本文构建了小规模的电子病历词典,用于辅助命名实体识别研究。同时,在3634份病历的基础上构建了词向量,并对比了K-means和GAAC两种聚类方法。引入三种扩展特征后,SSVM模型系统性能最好,F值达到了92.87%。(3)开展基于组合分类器的中文电子病历命名实体识别研究。本文引入Bagging和Stacking两种组合分类器算法,构建多种组合分类器来进一步提高实体识别效果。其中,以采用Stacking策略,CRF与SSVM结合的组合分类器效果最优,系统性能最终达到92.97%。综上所述,本文制定了中文电子病历命名实体标注规范并构建了相关语料,实现了基于三种有监督学习方法的命名实体识别系统,并引入扩展特征与组合分类器算法对系统性能进行提升。与目前仅有的两个团队的研究成果相比,无论是在实体类型定义上,语料规模上,还是系统性能上都具有一定的优势。
其他文献
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
目的探讨特发性急性非坏死性肛管直肠周围疾病的诊断学特征。方法选取2014年5月至2018年9月济宁医学院附属医院肛肠科收治的特发性急性非坏死性肛管直肠周围疾病患者6例,回顾
目的观察黄芪注射液治疗原发性肾病综合征的疗效.方法将131例肾病综合征患者随机分为2组,治疗组(黄芪注射液十强的松)和对照组(强的松),观察2组患者治疗前后尿蛋白、血清总蛋
根据相容的概念,定义了伪相容连续与伪相容连续的基,进而得出若干等价命题及相关性质的证明。最后介绍了在伪相容连续偏序集中一类特殊的相容定向集,并加以证明。
目的:观察芍药甘草汤加疮疡外洗方联合西药治疗镰疮的临床疗效。方法:选择50例镰疮患者,按1∶1的比例随机分为两组。对照组给予头孢硫脒(由广州白云山制药股份有限公司生产,国药
《中医各家学说》与《方剂学》均为中医基础课程,通过熟悉制方医家的时代背景和学术思想体系。把各家学说运用于方剂学的教学。起到良好的促进作用。
<正>组配测氧仪自动反馈调节装置,构建恒稳氧浓度自动调节系统,并利用其进行缺氧缺血脑损伤大鼠模型的制作。自制气体密闭箱,利用市购电子测氧仪,自行选配并组合气体控制电磁
会议
幽门螺杆菌(Helicobacter Pylori,Hp)与全身多种疾病密切相关,口腔是幽门螺杆菌的第二储存库,与多种口腔疾病的发生有密切关联,近年来口腔幽门螺杆菌成为研究的热点,本文对口
<正> 肥胖对于健康和寿命的影响,除众所周知的肥胖人容易发生高血压和心、脑血管合并症外,肝、胆疾病也是肥胖病人的常见合并症。肝组织活检资料表明,约50%肥胖者合并有脂肪
阿司匹林作为一种有效的抗血小板聚集药,在防治血栓性疾病中被广泛应用,但阿司匹林抵抗的存在严重限制了它的疗效。阿司匹林抵抗分为两种,一种是正规服用阿司匹林后,实验室检测血