面向中医临床现病史文本的命名实体抽取方法研究

来源 :世界科学技术-中医药现代化 | 被引量 : 0次 | 上传用户:stystill
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目的:中医临床病历作为重要的临床数据,以文本的形式记录了医生和患者交互的整个过程。目前,在大数据的背景下,针对临床病历所涵盖的主体问题信息如现病史的分析利用相关研究仍有所欠缺。因此,本文针对中医临床病历中的现病史部分展开症状术语抽取方法研究,为临床病历的进一步使用奠定基础。方法:首先通过随机挑选与专家审核的方式获得了12 367份现病史数据,按照疾病种类分成了两组实验,其中糖尿病组包含了4 838份数据,脾胃病组7 529份数据,以及合并后的混合组12 367份数据。并整理出了一份涵盖22 996个词的症状术语字典。然后选取滑动窗口特征、词的前后缀特征、词典特征等5种特征模板,使用CRFs模型开展症状术语命名实体抽取实验。结果:在实验结果评价标准(准确率、召回率和F1值)上的表现:在开放测试上的评价结果为(0.83、0.8、0.82)、(0.9、0.9、0.89)和(0.88、0.87、0.87);在十重交叉验证上的评价结果为(0.83、0.82、0.83)、(0.95、0.95、0.95)和(0.93、0.92、0.92)。结论:CRFs模型作为一种优秀的序列标注算法,适用于现病史文本的症状术语命名实体抽取任务。
其他文献
本文介绍了1550nm市县联网长距离传输中涉及的关键技术、方案设计等。
摘 要:一个芦笋新品种育成后,新品种及配套栽培技术的推广工作对芦笋产业的发展是不可缺少的。推广是一项艰巨而复杂的工作,需要有好的方法及形式来引导。推广的效益不仅受到技术、方法的制约,还受到社会条件、经济水平、生产生活习惯等的影响。本文就芦笋新品种及配套栽培技术推广的主要形式和方法进行了阐述,以期对芦笋推广人员提供理论指导与技术支持。  关键词:芦笋 新品种 配套技术 推广  中图分类号:S644.
XML(Extensible Markup Language)即可扩展性标识语言,它是国际互联网联盟(W3C)开发的用于网络环境下数据交换、数据管理和网页设计的新技术。它可用来设计与特定专业领域有关的
由于镀铝环保内衬纸其弱金属特性,造成此机组所装配的部分内衬纸检测器不稳定或失效,造成有内衬纸丢失烟包可能进入成品的质量隐患。为此本文对GDX1机组的检测系统进行分析,
目的探讨大脑胶质瘤病的MRI影像学特征及其病理学基础,评价MRI和MRS对大脑胶质瘤病诊断、分级的临床应用价值。方法回顾性分析16例经病理证实的GC患者的MRI影像资料,并与其临
2012年通过的《刑事诉讼法》对刑事法官的庭外调查取证权做出了保留,这对于刑事审判的实体公正和程序正义的实现具有重要意义。在我国刑事审判模式下,法律规定对于案件存疑的
在全站仪测量过程中,作为配件的棱镜是最容易被忽视的一个环节,本文通过测量事故案例分析,说明棱镜常数的重要性;并通过棱镜常数公式的理论推导和实践操作步骤,来阐述棱镜常
在马克思主义经典话语中,无产阶级是对"无产"的工人阶级的指称。当代资本主义的自我调整和20世纪以来社会主义的发展,使得当初的"无产者"正在成为"有产者"。无产阶级这种身份
腹腔镜胆囊切除术50例手术体会高向农,王时宝,朱贤武,霍永江,毛盛名四川省攀枝花市十九冶职工医院外科(617023)关键词腹腔镜术,胆囊切除术我院自1994年4月至6月施行腹腔镜胆囊切除术50例,取得良好效果