基于领域词典与CRF双层标注的中文电子病历实体识别

来源 :工程科学学报 | 被引量 : 0次 | 上传用户:BCB
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
医疗实体识别是电子病历文本信息抽取的基本任务.针对中文电子病历文本复合实体较多、实体长度较长、句子成分缺失严重、实体边界不清的语言特点以及标注语料难以获取的现状,提出了一种基于领域词典和条件随机场(CRF)的双层标注模型.该模型通过对外部资源的统计分析构建医疗领域词典,再结合条件随机场,进行了两次不同粒度的标注,将领域词典识别的准确性和机器学习的自动性融为一体,从中文电子病历文本中识别出疾病、症状、药品、操作四类医疗实体.该模型在测试数据中的宏精确率为96.7%、宏召回率为97.7%、宏F1值为97.2%
其他文献
目的分析超声乳化加人工晶体植入治疗葡萄膜炎并发白内障患者的临床效果。方法选取我院收治的葡萄膜炎并发白内障患者共35例,收治年限在2013年5月至2015年2月之间,将其通过抽
棉花是阿克苏地区的主栽作物,在农民经济收入中占主要地位,为加快棉花新品种推广步伐,拓宽品种推广渠道,推进棉花品种和品质结构的优化,2015年,我站选择7个棉花新品种进行示
随着抗生素的滥用、耐药细菌的急剧增加,为控制医院感染,合理使用抗生素问题显得尤为重要。理想的预防性用药是:最恰当的抗生素,最小剂量,最短疗程和最合适的给药方式,达到最佳疗效
裕民县位于塔额盆地西南边缘,属大陆性干旱气候,境内水、热状况差异大,造成作物种植品种单一。为提高抵御自然灾害能力,增加农民收入,拓展裕民县农业种植领域,自2013年开始,
在我国快速城镇化过程中,不少城市建设被错误的政绩观所引导,对城市生态系统造成严重破坏、改变原有水文特征,频频出现内涝问题、水体生态环境急剧恶化,同时面临水资源短缺、
为筛选和鉴定第9师近年引进的玉米新品种的适应性、抗逆性、丰产性和稳产性,以加快玉米新品种示范、推广步伐,特安排本试验。二、参试品种及选育单位本试验参试品种共计8个,