中文电子病历的分词及实体识别研究

来源 :图书情报工作 | 被引量 : 0次 | 上传用户:anan9077
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
[目的/意义]健康医疗大数据是我国重要的基础性战略资源,本研究对中文电子病历分词与实体识别的探讨与实证较好地完成了医疗数据的信息抽取任务,对今后医疗大数据在语义层面的应用发展具有重要意义。[方法/过程]本研究首先融合权威词表、官方标准、健康网站数据及其他医学补充词库构建了词语数量级达到10万的医学词表;然后对电子病历的字段进行分词,对比了jieba工具、导入词典后的jieba、无监督学习及AC自动机4种模型的分词效果;最后,以自动分词和人工标注结果为语料,实现基于条件随机场的电子病历实体识别研究,并比较不同实体类别以及不同文本特征下的实体识别效果,选出最优模板。[结果/结论]分词结果显示,AC自动机的效果最好,F值可达82%;实体识别结果表明,"检查"和"疾病"实体的识别效果最好,而"症状"的识别效果不太理想。
其他文献
形义统一是《说文解字》说解汉字的基本原则,这一原则根植于汉字的表意本质,在许慎之前有着悠久的思想、学术传统。在思想史层面,儒家“正名”思想是形义统一原则的宏观来源
目的探讨冠心病与炎症因子HMGB1、YKL-40、MMP-9的关系;检测服用阿托伐他汀的心肌梗死后患者血浆HMGB1、YKL-40、MMP-9水平的变化。方法选取来我科住院的心肌梗死后患者38例
11月30日晚7时30分,第四届我省学校预防艾滋病知识宣传周活动在湖南大学启动。省教育厅副厅长王键出席了本次启动仪式。启动仪式上,王键表示,当前我国艾滋病防治工作面临着一些
2017年日本少子化老龄化形势进一步加剧,影响波及日本社会的方方面面。结婚率下降,家庭规模缩小、独居家庭及夫妇家庭增加,家庭育儿、养老压力过大;企业劳动力不足问题凸显;中间阶层缩小、低收入阶层扩大;人口向东京圈一极集中趋势继续加剧。在这一社会背景下,2017年6月"社会5.0—超智慧社会"作为一项社会政策得以确立,促进第四次工业革命的高新技术成果进入社会服务领域,破解少子老龄化带来的各种社会现实问
近年来,小学师资紧缺已成为制约农村教育发展的瓶颈。为了解决这一难题,洞口县石江镇中。校开创性地将小学六年级纳入初中的教学管理,取得了良好成效。
目的研究分析葛兰心宁胶囊用于冠心病治疗的效果。方法对我院接收的房早和室早患者进行筛选各80例,随机分为试验组和对照组,实验组使用葛兰心宁胶囊和美托洛尔,对照组使用美托洛
“两”字在汉语史上是个使用频率极高的书写形式,所涉及的字词关系、词际关系错综复杂.我们尝试从历时的角度全面梳理“两”字先后记录过的词项,考察其本用、兼用、借用等职
入选语文教材的文本严格来说不仅仅是一篇文章,它要体现编者意,不篡改作者意,符合学者意。获得诺贝尔文学奖的莫言,其作品的生命不仅仅带着"高密东北乡"的特色,也承载了中国文
本文通过对初中英语教学现状和《一起作业》这一多媒体软件的作用进行分析,探究其对初中学生英语听力和口语的促进作用,旨在提高初中学生英语能力,为教师教学提供方法指导。
一位老教师曾对我说:"语文课上就是要放得开,收得拢。"所谓"放得开",就是要让学生读,放手让学生发言,放手让学生练习;所谓"收得拢",就是要让学生跟着老师的思维转,跟着教材的内容转,