非结构化电子病历中信息抽取的定制化方法

来源 :北京大学学报(医学版) | 被引量 : 0次 | 上传用户:E200902027
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目的:电子病历数据中的主诉、现病史、既往史、鉴别诊断、影像诊断、手术记录等主体内主要采用中文自然语言文字描述,是临床医生实际诊疗细节的具体体现,包含了诊疗细节的大量、丰富信息。本研究目的在于建立一种从中进行有效信息提取并组织成可分析利用的形式,供目前医学数据处理、医学研究之用。方法:基于医院的真实电子病历数据,设计定制化的基于规则学习及信息抽取方法,采用三个步骤实现中文信息的抽取:(1)抽样标注,随机抽取600份电子病历的病史信息(包括现病史、既往史、个人史、家族史等),采用本研究开发的标注平台,对其中需要抽取的信息(以糖尿病史为实例)进行标注;(2)根据标注结果,进行抽取模版归纳,并将抽取模版进行重写,生成可以直接用于抽取的Perl语言正则表达式抽取规则,并利用这些规则进行实际信息抽取;(3)对抽取结果进行人工验证与自动化验证相结合的方法,对方法的有效性进行验证。结果:所设计方法已在国家医疗数据中心平台上实现,并针对糖尿病病史抽取在医院进行了单个科室的现场验证,2015年1 436份糖尿病患者病历的病史抽取结果为召回率87.6%、准确率99.5%、F分数(F-Score)0.93;全体糖尿病患者10%抽样病历共1 223份的抽取结果为召回率89.2%、准确率99.2%、F-Score 0.94,效果较好。结论:主要采用自然语言处理与基于规则的信息抽取相结合的方法,设计并实现了从非结构化的中文电子病历文本数据中抽取定制化信息的算法,与已有工作比对效果较好。
其他文献
政府的会计准则主要是以责权发生制和收付实现制作为主要核算基础的。我国政府仍然建立在此项基础之上,对会计准则进行了较大的修改。而且,还增加了“所得税费用”的科目,这
ELF时代的跨文化交际让人们重新思考语言与文化的关系、英语的标准、跨文化交际等问题。在这种背景下,如何在英语教学中处理英语的变体、如何设置教学目标、选择怎样的教学方
在矿产资源开发多目标遥感调查与监测项目中,ArcGIS自带的符号库已远不能满足专业需求,须建立新的专业符号库。目前,可用于GIS软件符号库的制作途径主要有4种,本项目地图符号
随着我国社会主义市场经济的发展,房地产迅速成长,逐步发展为我国的支柱产业之一。但房地产具有高投入、高风险、投资周期长以及易受环境变化等不利因素的影响,致使企业对房
天职观作为新教教派的核心教义,它赋予世俗中的职业以浓厚的宗教色彩,同时将世人通过履行天职观的义务奉为一个人道德行为的最高形式,不仅使日常的世俗活动具有了宗教的意义,
宪政是一种先进的政治理念 ,是现代政治文明的一种集中体现。宪政与宪法、自由、人权、民主、法治的关系极为密切。世界近现代政治文明发展的历史充分说明 ,宪政乃良宪之治 ,
本文在对词语模"xx style"的结构特征进行分析的基础上,探析其形成及演变的过程。
我国作为世界上人口最多的国家,人口城市化进程加速对我国经济发展是一个契机,人口城市化不但带来了人口聚集和产业聚集,而且使现代服务业成为国民经济增长的重要动力源,今后
2019年7月,我国出口集装箱运输市场继续呈现回暖态势:运输需求小幅增长,总体供求关系良好,运价综合指数上涨;但由于供需基本面存在差异,不同航线市场运价走势分化。由于中美
在大数据时代,社会各行各业都需要大量数据分析人才,尤其是大数据分析人才。为此,部分高校正在积极探索数据分析人才的培养模式。在分析大数据时代数据分析人才的应用场景、