中医临床术语集语义关系的示范研究

来源 :中国中医科学院 | 被引量 : 0次 | 上传用户:alex_juve
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中医药学绵延发展五千年,积累的数据可谓浩如烟海,如何有效地管理和利用这些数据,从当前以数据处理为主导的初级阶段过渡到以知识处理为主导的高级阶段,成为中医药信息研究人员关注的焦点。中医药语言系统的开发为中医药学术语的集成、电子病历知识库系统的构建、医疗数据的采集以及检索共享平台的建立提供了良好的发展契机。1研究背景在医学领域,依据不同的开发策略和服务目的,国内外开发了一些医学语言系统来支撑和促进医学信息化的发展,比较有代表性的医学语言系统有:美国病理学家学会开发的系统化医学术语集(SNOMED),美国国立医学图书馆开发的统一的医学语言系统(UMLS),以及中国中医科学院中医药信息研究所研制的中医药学语言系统(TCMLS)。1.1语义关系发展现状SNOMED是以现代医学理论为指导,按临床医学诊疗思路建立语义类型和语义关系,主要由概念表、描述表和关系表组成,SNOMED中共有41个语义关系,分布在语义类型linkage concepts中。UMLS是美国国立医学图书馆自1986年开始研制的情报检索语言集成系统,主要由超级叙词表、语义网络和专家词典组成。UMLS共有语义关系54种,其中一些语义关系的设置是为了统领语义关系体系,使其分类清晰,结构明确。TCMLS是中国中医科学院中医药信息研究所自2001年开始研制的第一个中医药领域的语言系统,该系统借鉴了UMLS的设计理念,并结合中医药学科体系特点而研制,由基础词库与语义系统两部分组成。TCMLS共有58种语义关系,是在UMLS语义关系的基础上添加4种新的语义关系而形成。中医临床术语集是由中国中医科学院自2006年开始研制,目的是为中医临床电子病历提供术语参考。它的基本思路是参照SNOMED的框架体系,并结合中医临床诊疗的思维模式而设计。语义关系包含在语义类型“连接词”中,连接词的来源主要取自SNOMED、UMLS和中国中医药学主题词表三个系统。1.2语义关系发展存在问题中医临床术语集和TCMLS所采用的语义关系均来自于已经成形的西医语言系统(SNOMED和UMLS),因此在表达中医临床层面的医疗关系时会有其自身的局限性;另外,西医语言系统自身也存在一些问题,比如各个系统中的语义关系具体的应用范围并不清楚,使得每一级语义关系所能连接的语义类型范围不明确;最后,两套中医药语言系统(TCMLS和中医临床术语集)还只停留在术语研究的层面上,没有与实际应用相联系,中医临床术语集亦未对采用的语义关系考察过其适用性,因此对语义关系的研究还需要进一步在应用中改进与完善。2研究内容本研究将对中医临床术语集的语义关系进行研究,主要研究过程分为确定研究目标、采集病历、抽取关系词、划分概念领域和产生新语义关系五部分。2.1确定研究目标本研究借鉴国家标准研制的设计思路,对3000例病例进行显性语义关系的抽取,目的是在某种程度上考察中医药语义系统的完整性,完善中医临床术语集语义关系,并探索一套可供参考的中医临床术语语义关系的研制方法。2.2采集病历为了能够较全面系统地反映现代中医病历系统中存在的客观关系,本研究对前期病历的采集工作进行了规划。2.2.1采集范围参考卫生部下发的“医疗机构诊疗科目名录”,选取内科、外科、妇科、儿科、针灸科、骨伤科、皮肤科、肛肠科和五官科(眼、耳鼻喉)九个二级专科。2.2.2取材标准各科病历主要来自医院的原始病历、CNKI(China National Knowledge Infrastructure)收录的中医期刊论文以及中医专著三部分,病历的纳入原则如下:2.2.2.1来源直接来自于医院的原始病历,或公开出版的刊物。2.2.2.2时间全部为现代医案,记录撰写时间要求为1980年以后;鉴于此阶段医案的记录时间跨度小,实用性较强。本研究最终所采集病案的撰写时间为1983—2006年。2.2.2.3医家为了避免同一医家在诊疗思路和语言表达方式上会有所偏嗜,影响结果的客观性,本研究规定每科病历数不少于6个来源,每位医家的病历数不超过各科总例数的25%。2.2.2.4内容为了保证病历信息含量的充足,规定病历内容上必须包括主诉、现病史、中医辩证、诊断和治疗五部分。2.2.3采集结果门诊病历共采集2840例,涉及专科九个,主要来自于36本专著和CNKI收录的期刊论文。住院病历共采集160例,全部来自于全国三级甲等医院北京东方医院的病案室,共涉及专科七个,没有外科和儿科病历。九个专科的总例数分布是:内科600例,外科300例,妇300例,儿300例,针灸300例,骨伤300例,皮肤300例,肛肠300例,五官科(眼,耳鼻喉)300例,总共采集病例3000例。2.3抽取关系词纳入符合规定的病历后,进行显性语义关系的抽取。2.3.1抽取方法为了避免关系词抽取的主观性,本研究只对显性关系词进行处理和研究。2.3.1.1词类抽取方法针对关系的本质属性及我国汉语词类的特点,本研究对连词、介词和动词三类能体现语义关系的词类进行了抽取,并制定了相应的细则。2.3.1.1.1连词抽取方法本研究只抽取连接句子的连词,而连接词组和短语的连词则不予提取,主要是考虑到这部分连词所体现的医疗关系的实际意义并不显著。比如:“无发热及咳嗽咳痰”不予抽取“及”;而“患者因家庭事故,而致突然精神失常”抽取“因……而致”。2.3.1.1.2介词抽取方法对病历中所涉及的介词全部进行了抽取。比如:每于(劳累后、春季发作),每逢(发作前夕、饮酒),于(一星期前、疟疾发作前)。2.3.1.1.3动词抽取方法2.3.1.1.3.1宾语缺失为了避免抽取的主观性因素,本研究规定所有的动词必须后带宾语才予以抽取,比如:“曾多次以中西药物治疗”不予抽取“治疗”,“湿热蕴结下焦”抽取“蕴结”。2.3.1.1.3.2词和语素中文的语素、词、短语之间的界限往往是模糊的,再加上中医辨证部分不少用语保留了古汉语的特点,因此规定,谓语和宾语部分至少有一项为2个字或以上才予以提取。比如:“肺气失宣;血热伤络”不予抽取“失”和“伤”,“肺失宣降;血热伤阳络”抽取“失”和“伤”。2.3.1.2“同词不同义”抽取方法语义关系抽取的同时即进行关系的初步归类。同一个词在不同的语境下体现的功能不同,因此其语义性不以汉字本体为划分依据,而是据其后接组合词的语义特点进行划分归类。比如:介词“在”,可以表示一个实体的位置或一个过程的场所,如:在(胞宫、血分),也可以表示疾病发生的时间,如:在(阴雨天、熟睡时),因此介词“在”应按其不同语境下所体现的功能的不同而划分在不同的概念领域中。2.3.2规范记录格式2.3.2.1数据的原始化原文录入,尽可能地保持数据原貌。2.3.2.2数据的完整性尽量再现每个词在病历中所处的的语境,这样有助于后期数据合理的划分和归类。2.3.2.3近义词处理将相近概念的近义词归纳在一起,形成初步的概念体系分类。2.3.2.4统计频次相同的词录入后统计频次。2.4划分概念领域按上述方法抽取后,建立总词表。本研究依据词语相似度、词语本身含义并参考SNOMED和TCMLS两套关系词的含义分布特点,将表达相似含义的语义关系词归纳在一起,形成一组组概念领域。2.5产生新语义关系2.5.1对比结果由于TCMLS、UMLS中每类语义关系均有其丰富的内涵和外延,而本研究依据汉语特点及中医临床病历特点划分了自己的概念领域,因此在进行语义关系的比较对应时不能保证一一对应的关系,有可能是一对多的关系。经过对比,本研究提取的语义关系词在TCMLS中涉及到36个,总覆盖率为67.92%,在SNOMED中涉及到20个,覆盖率为48.78%。2.5.2产生原则2.5.2.1查漏补缺新关系词应基于TCMLS和SNOMED的语义关系而产生。2.5.2.2实用性只有当TCMLS和SNOMED两套语义关系不能较好体现某些特定概念间的语义关系时,才予以考虑产生新的语义关系。2.5.2.3参考频率语义关系提示了术语间的动作轨迹,轨迹的发现和确立是根据每个词条动作的频次、合理性及现实需要来创建的。2.5.3表述定义及产生新语义关系2.5.3.1表述定义的原则尽可能地参考权威资料,对不能很好地体现本专业领域特点的关系词的定义,要进行因地制宜的修改,力求定义的适用性和简明性。2.5.3.2确立新语义关系的基本要求2.5.3.2.1准确性符合汉语语法规则,并且能反映定义中所涉及概念的特征,不易给使用者造成误解。2.5.3.2.2适用性能被专业人员所理解,文字简洁、表达准确,尽量采用典型词句,以利于今后的应用和使用。2.5.3.2.3概括性可以参考高频词,但原则是要能较好体现和概括一类关系的含义。一般情况下,直接来源于病历的关系词比较细化具体,因此一般要先进行抽象和概括,才能得到较合理的语义关系词。2.5.3.2.4中医特色倾向于选取较能有效体现中医特色的词汇。2.5.3.2.5实用性所连接的两端实体类型要具体实用,且具备一定的频率统计次数。2.5.3.3新语义关系定义及展示2.5.3.3.1感受……之邪抽取代表词:感受(风邪、麻毒),伤(暑湿);定义:用来表示机体外受六淫、疫疠之气等外邪的一种感邪途径;可用来连接语义类型“机体形态”和“原理”;举例:“太阳经、少阳经”感受“寒邪”。2.5.3.3.2侵袭抽取代表词:侵袭(关节、肌肤),侵及(心脉、面颊),横克(脾胃);定义:表示邪气作用于机体或机体病理产物的运动方式,表现为一种向上向下向内或向外的作用;用来连接语义类型“机体形态”和“原理”。举例:“阴寒”侵袭(触动)“肺中伏痰”,“湿热”侵袭(充斥)“下焦”。2.5.3.3.3对……的功效抽取代表词:调理(阴阳、气血),清泄(肝火),升发(阳气);定义:描述单味药或复方通过八法对机体或外邪的一种作用方式;可以用来连接“药物/器械”和“原理”,“药物/器械”和“机体形态”,“处方”和“原理”,“处方”和“机体形态”。比如:“薄荷”对“风热”的功效为疏散作用,“薄荷”对“头目”的功效为清利作用。3讨论:3.1数据分布特征3.1.1格式住院病历的书写在某些部分有其明显的固定性特征,比如主诉部分的关系词“因”、“伴”、“由”、“于”、“收入(院)”的使用率几乎达到了100%。相形之下,门诊病历的格式规范化不强,各个医家的书写风格迥异。3.1.2内容住院病历尤其是中医辨证部分明显比门诊病历的内容全面丰富,且中医典型的用语大部分都集中在中医辨证和治法上。3.1.3各科分布中医辨证部分的病机分析及治法较突出地反映了各科用词差异,比如:肛肠科常见的关系词是:“湿注”(大肠)、“下注”(魄门);妇科常见的关系词是:“固”(胎元)、“固摄”(冲任)等。3.2抽取词在SNOMED和UMLS的分布UMLS和SNOMED语义关系基本上完全含纳了中医临床病历中所涉及到的西医理论中的医疗关系,而不能很好地体现其语义特点的语义关系均存在于中医特有的理论体系中。本研究虽然只抽取了中医病历的显性关系词,但从这个角度来衡量UMLS和SNOMED的语义关系,可以看出,这两套语义关系较完备地体现了生物医学概念中存在的重要联系。相形之下,UMLS的语义关系包罗万象,语言的概括性更加合理,体系更加完备,适用性更加灵活多变。3.3结果分析UMLS、TCMLS、SNOMED的语义关系和所抽取到的关系不能完全互相覆盖,主要有五方面原因:3.3.1理论体系不同中西医两大学科理论体系不同,不可避免地要涉及到行业领域内某些特有的医疗关系。虽然TCMLS中新增了4个中医语义关系,但由于服务性质的不同,在表达临床层面的医疗关系时有其自身的局限性。3.3.2缺乏应用和实践目前,中医药语言系统还只停留在术语研究的层面上,没有与实际应用相联系,因此本研究从实践的角度考察其适用性时,会从实用的角度上发现一些新的问题。3.3.3抽取的片面性本研究只抽取了显性关系,因此所反映的结果虽客观但不够全面,因此未涉及到的语义关系并不表示中医临床中一定不存在此类关系。3.3.4关系细化本研究所抽取的许多语义关系非常具体细化,过于具体的关系词会造成关联过度,这不仅会在划分概念领域、抽象概念时带来困难,也造成了庞大的数据群,使人工在短时间内无法便利地提取有效信息,给对比和分析工作带来很大困难。3.3.5数据不均衡住院病历数据均来自北京东方医院,不可排除病房数据的分布有一定的群体特征。另外中医的典型用语一大部分集中在住院病历的辨证部分,而本研究只收集住院病历160例,这在某种程度上影响了中医典型词汇的获取量。3.4探索中医临床术语语义关系的方法参考本研究借鉴国家标准研制的设计思路,并结合中医临床术语集的开发需要,形成一套可供参考的中医临床术语语义关系的研制方法。具体思路如下:3.4.1分析需求对研制对象进行需求分析,进而确定语义关系的服务方向及产生途径。3.4.2制定抽取原则确定采集范围及纳入原则,明确切实可行的抽取方式和合理的记录方式。3.4.3抽取关系词抽取关系词,记录数据并建立词表,按一定体系建成若干个子级词表,最后汇合成总词表。3.4.4划分概念领域根据特定的方式和原则排列相关概念,形成概念领域。3.4.5对比分析与已有成果做对比分析,明确产生新关系的原则,并确立选取词的基本要求。3.4.6产生新关系在表述定义的基础上,确立新的符合特定需要的语义关系。3.4.7在实践中验证新产生的语义关系应该回到语言系统中进行关联实践应用,本研究受时间所限,未能进行此项研究。4本研究的意义4.1抽取整理语义关系目前,在中医药标准化方面已经面世的书籍和文件中,均是对概念实体的整理和规范,没有对体现语义关系的词类和术语进行过整理和分类。本研究通过抽取关系词对中医语义关系词进行归纳和整理,期望为语义关系词的标准化研究方面有所帮助。4.2完善中医语义关系本研究在一定程度上考察了中医药语义系统的完整性,并发现建立了3个新的语义关系,补充和完善了中医药语言系统临床层面的语义关系,丰富和展示了中医临床方面较独特的医疗关联事件。4.3探索语义关系研究的新方法在某种程度上,本研究将仅停留在研究层面的中医药语言系统提前从实践的角度进行了应用,初步考察了西医两大语言系统的语义关系在中医临床层面上的适用性,同时也从实践的角度探索了一套可供参考的研制中医临床术语语义关系的新途径。5结语本研究借鉴国家标准的研制方法对中医临床病历的语义关系进行了初步的探索性研究,在一定程度上考察了中医药语义系统的完整性,为中医临床术语集的开发和后期应用提供了具体而有效的支持;期待中国中医科学院能够研制出高质量切实可用的中医临床术语集,为中医药领域的数据库建设、文本挖掘等研究工作提供强有力的语言工具,从而加速推动中医电子病历系统的研制和开发进程,为我国中医医院的信息管理系统的发展增添浓重的一笔。
其他文献
<正>0 引言随着人们对阻燃要求的提高,阻燃电缆得到了广泛的应用,并起到了明显的效果。近年来,建设和消防部门要求地铁、机场、高层建筑等人口密集的场所采用更高阻燃级别的
目的初步评价卵巢储备功能下降女性的生存质量,初步探讨卵巢储备功能下降的中医体质类型分布特点。从而提高对卵巢储备功能下降的认识,为防治该病提供依据。方法选取2010年1
目的 观察亚胺培南对医院感染常见革兰阴性杆菌的体外抗菌活性。方法 用 Vitek AMS- 3 2系统检测亚胺培南对 3 68株医院感染常见革兰阴性杆菌的抑菌率和最小抑菌浓度 (MIC)
本论文改变传统集中式培训模式,采用工作现场师带徒培训模式,有效缓解工学矛盾;同时制定基于员工需求的个性化培训计划,实现培训目标个性化,培训内容“因人而异”,有效节约培
补肝益肾汤治疗腰间盘突出(肝肾亏虚型)的临床实验研究目的:通过观察口服自拟补肝益肾汤对腰椎间盘突出症(肝肾亏虚型)的临床疗效,评价其有效性和安全性,为临床应用该药提供依据。方
智能制造推动我国制造业转型升级,对高职院校技术技能人才的培养带来了新的挑战,基于综合职业能力培养的项目化课程教学改革是保证人才培养的关键。通过以德国“双元制”职业
<正> 雄黄艾叶烟治疗慢性气管炎,流传在海南岛和雷州半岛一带,已有悠久的历史。我们自1971年5月以来,应用雄黄艾叶烟治疗慢性气管炎病人1,054例,有效率达97.2%,但由于雄黄艾叶
在激光雷达以及光谱仪定标时常常需要较宽以及高准直性的激光光束。设计了一出射光束为16mm,扩束比为20倍的激光扩束器光学系统。通过移动激光扩束器的物镜与目镜间隔,可以实
自从我国进入到改革开放的崭新经济发展时期当中之后,逐步在经济体制改革领域当中取得了一定成果,在经济改革深化水平不断提升的背景之下,企业本身作为市场经济领域中的重要
目的 分析护理干预对胆囊合并胆总管结石患者术后康复及生活质量的影响。方法 选择2015年12月至2016年12月周口市中医院收治的90例胆囊合并胆总管结石患者,采用随机数表法分