基于深度表示的中医病历症状表型命名实体抽取研究

来源 :世界科学技术-中医药现代化 | 被引量 : 0次 | 上传用户:fljk888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目的:命名实体识别在自然语言处理中是最基本的任务之一,本文通过应用深度表示的方法实现临床上的现病史数据的自动标识。方法:本文随机选取了10 426条现病史句子作为主要的文本研究对象,分别用词嵌入(word2vec)和网络结构特征(node2vec)两种构建向量的方法生成不同的词向量特征,再在基于条件随机场(Conditional Random Field,CRF)和结构化支持向量机(Structured Support Vector Machines,SSVM)的方法上进行十重交叉验证,计算并比较基于深度表示的症状表型命名实体抽取的性能。结果:传统的CRF算法的三个评价指标(准确率,召回率,F值)为(0.888 9,0.786 9,0.834 8);基于WENER方法下的CRF和SSVM的评价指标为(0.975 0,0.984 9,0.979 8)和(0.992 8,0.988 9,0.990 8);在GENER方法下基于词的CRF和SSVM算法的三个评价指标为(0.972 8,0.976 8,0.975 2)和(0.983 3,0.974 5,0.978 8);GENER方法下基于字的CRF和SSVM算法的评价指标为(0.927 8,0.862 8,0.887 9)和(0.943 7,0.946 8,0.941 3)。结论:深度表示的命名实体抽取算法性能要比传统的非深度表示的命名实体标识算法性能好。另外,通过比较深度表示的两种算法的性能后发现,无论是基于word2vec生成的词向量还是基于node2vec生成的词向量,SSVM模型算法性能均优于CRF算法的性能。
其他文献
2006年,商务部出台了《“中华老字号”认定规范(试行)》的规定,对“中华老字号”的释义作了如下解释:老字号是指历史悠久,拥有世代传承的产品、技艺或服务,具有鲜明的中华民
现阶段,黔南州致力于依托荔波、三都、平塘的世界级旅游资源和品牌,推进旅游资源整合与优势互补,整体打造荔波--三都国际旅游目的地,着力提升旅游城市综合服务功能,重点发展
【关键词】基本活动经验 “四基” 教学观  【中图分类号】G 【文献标识码】A  【文章编号】0450-9889(2013)08A-  0020-02  2011年版的数学课程标准把原来的“双基”教育目标扩展到“四基”教育目标,其中提出了“基本活动经验”的概念。这一概念丰富了数学教学的内涵,力求改变以往只注重基础知识和基本技能的教学观,为学生获得可持续发展提供了思路。  一、“基本活动经验”的内涵
选用MC9S12XS128为主控芯片,采用三方位大功率红外检测、舵机控制动力、PWM速度控制等技术,设计一款智能迷宫小车,包括小车的机械结构装配、电路控制、软件编程、控制算法及
如何面对银行的亏损现状房春起,李艳春当前,银行经营亏损问题十分严重,不但影响了银行职工的积极性,而且束缚了各级领导的手脚,不利于向国有商业银行转轨。造成银行亏损既有国家政
掌握数学概念是开展数学思维的基础,学好数学概念才能正确进行判断、分析、推理、运算,有效解决数学问题。数学概念比较抽象,表达语言高度精练。在当前的初中数学教学中,还有很多
新课标强调,学生口语交际能力的培养要在双向互动的语言实践中进行;要利用语文教学的各个环节有意识地培养学生的听说能力;要在课内外创设多种多样的交际情境,让每个学生无拘
近年来,随着医学教育的进一步发展和医疗环境的变化,再加上妇产本身的特殊性,致使其在临床教学实践中多面临的挑战非常大。医学模拟教育结合标准化患者作为一种新型教学方法,
慢性阻塞性肺疾病(COPD)是一种临床上较为常见的慢性呼吸系统疾病,由于其较难治愈及对患者生活工作产生影响较大,故目前的治疗目的在于缓解患者的症状[1]。而对于急性发作期