针灸概念语义网络的构建研究

被引量 : 0次 | 上传用户:netdownloadfile
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
几千年来,中医药领域的无数临床实践与理论研究积累了海量的科学知识,构建起自身独特的理念、方法和理论体系,这些知识包含在中医药古籍以及当前的科学文献中,具有重要的学术价值和开发利用的实用价值。针灸学作为中医学的重要组成部分,最早从《黄帝内经》开始就逐步发展为一个具有自己独特理论体系的完整学科,并被联合国教科文组织认定为人类非物质文化遗产的代表作之一。本论文以针灸学领域概念为研究对象,以此展开,设置语义类型、筛选确定语义关系、设计语义结构、验证语义关系并实现结果可视化展示,最终达到构建一个以针灸概念为研究主体的语义网络的目的。1研究背景中医药信息的特点是知识密集度高,大量的隐性知识蕴含其中,具有很强的知识发现潜力,但中医药“知识密集型”数据的描述和表达是粗糙的,这给中医药数据的利用以及知识的转化带来巨大障碍。语义网络作为一种知识表达和组织的工具,是一种基于逻辑描述的本体,可以在语义和知识层次上描述系统的概念模型,其以一种通用的方式来获取领域中的知识,提供对领域中概念的共同一致的理解,从而实现知识在不同的应用程序和组织之间的共享和重用。相关关系是中医药数据非常重要的一种关系,使用语义网络作为工具,可以对中医药领域的知识挖掘、发现与利用起到不可忽视的作用。2研究内容2.1研究意义和目的TCMLS作为一个由大量中医领域概念和语义关系所构成的语义网,其规模已经是世界上最大的领域本体之一。随着语言系统中领域本体的不断发展和应用,有许多问题显露出来:从数据质量的角度来看,首先,语义本体是对领域知识的概括和总结,由于领域知识本身的复杂性,建成的领域本体往往存在着数据不一致的问题;其次,领域知识总是在不断发展的,随着领域知识的发展,旧有的领域本体就会渐渐地无法满足实际的需求,因此就需要对旧的领域本体进行修改和完善,以反映新的领域知识;最后,加工人员知识的有限性,在本体建设的过程中造成的词条,概念,语义关系等等的缺失、不足难以避免,从而导致知识的不完整性。从数据利用的角度来看,在发展过程中缺少对已有知识的有效利用,作为领域知识的集合体,TCMLS的规模已经远远超过了个人可以掌握的范畴,而其中的知识量仍在以很高的速度增长,亟需进一步的加工和优化。本次研究对象针对的是针灸领域概念,在现有中医药学语言系统的基础上构建针灸概念语义网络,并进行语义关系的验证和发现,形成网状的知识表达网络和可视化图形展示,以期实现提高中医药数据的利用率和知识转化有效率,促进学科的建设和发展的目的。2.2针灸概念语义网络的提出2.2.1中医药学语言系统:该系统以中医药各个学科为核心,结构由2部分组成:基础词库、语义网络。语义网络在参照UMLS的基础上,以新型的叙词表加工工具vBuild编辑器为依托,构建概念间的语义结构,最终形成126种语义类型与58种语义关系。但该系统在类的描述方面不够精确,未能体现类的全部属性;类下实例的设置相对混乱,有很多重叠和错位的现象。2.2.2传统针灸知识语义网络:我所科研人员朱玲在原有中医古籍语言系统的基础上,对传统针灸知识进行了语义网络的构建,该语义网络构建主要从医史古籍出发,采用传统文献概念考证与语义网络研究相结合的方法,对传统针灸知识体系进行重新组织和表示,以达到科学有效地发现、管理、利用传统针灸知识,提高信息传递速度与理解深度的目的。但因研究内容的侧重点不同,所以导致该系统收录概念中涉及现代临床和文献的部分不多,影响了该语义网络的应用普及。2.2.3日韩针灸概念术语框架:2010年和2013年日本和韩国先后提出过有关针灸概念方面的术语框架设计,两国均采用UML (Unified Modeling Language)(统一建模语言)方法进行概念建模。UML的目标是以面向对象图的方式来描述任何类型的系统,具有很宽的应用领域,其中最常用的是建立软件系统的模型,支持从需求分析开始的软件开发的全过程。因为该方法用途和使用目的的不同,将它用于进行中医药信息的知识组织显然不是很适宜。本研究采用中医药学语言系统的分类框架设计,借鉴传统针灸知识语义网络中古籍概念处理方法,运用ow1语言,以protege41为编辑工具进行针灸概念语义网络的建设研究。protege4.1作为本体编辑比较成熟的软件,更侧重类属性的定义,同时对于关系的表达更清晰、自由,可以根据自身需求自定义属性类别,对于中医针灸概念体系构建更适用。3针灸概念语义网络的构建3.1系统设计原则学科完整性原则、相关性和兼容性原则、灵活性和可扩展性原则。3.2知识源数据准备知识源数据就是建立整个针灸学概念语义网络的信息资源,包括针灸学各知识体系包含的相关概念、名词术语。知识源数据的词汇来源于国际、国家标准、中医药学主题词表、针灸专业辞典、中医药教材、期刊文献等。3.3概念术语规范化3.3.1词义辨析:大多数中医名词术语形成于古代,由于语言的变迁、学科的融合和发展等因素影响,以及长期以来中医药术语缺乏规范化,导致了中医药术语外延宽泛,内涵不清,常出现一词多义、同义词、词义演变等现象。因此,在构建语义网络时,首先要理解、辨析术语释义,然后进行概念的合并与归类、词多义处理两项内容。3.3.2合并与归类:“合并”是将同义词放在一起,作为同一概念的不同称谓,例如:火针又称燔针、煨针。“归类”是参照术语的注释,将一个术语归并到它的上位概念中去,成为其上位概念的子概念或实例。例如:原穴是特定穴的子概念,而太渊、合谷、冲阳、太白、神门、腕骨、京骨、太溪、大陵、阳池、丘墟和太冲则是原穴的实例。3.3.3一词多义情况的处理:分析一词多义及词义演变的情况,当一个术语表示两个或更多的概念时,为其加上括号和修饰词,以保证其唯一性。例如:在五刺、九刺、十二刺中都有“输刺”,在构建系统时分别标示为“输刺(五刺)”、“输刺(九刺)”、“输刺(十二刺)”。以上3项工作是交互进行的,不能截然分开。在此基础上,进行领域概念抽提,以确定研究领域的核心概念。核心概念应是相对稳定的,在对相关知识体系进行扩展时,只需要在层次结构的某些分支下增加新的概念。3.4语义类型的建立本研究在设置语义类型时,一级类目参考中医药学语言系统,二、三级类目主要参考针灸学科教材,收录范围不超过针灸学教材的内容,例如,中医基础理论中的语义类型“精”、“气”、“血”、“津液”、“辨证”等等,在本文当中没有一列举。但与经络密切相关的“脏腑”、“形体官窍”;与针灸治疗相互关联的“生理功能-中医生理”、“病理功能”(中医疾病、症状、经络证侯)等都涵盖在内。接下来,我们在之前工作的基础上可将确定下来的领域核心概念建立起语义类型,按照树形结构的方式逐级展开,如腧穴下可分为经穴、特定穴(五输穴、原穴、络穴、背俞穴等)、经外奇穴、阿是穴和耳穴、头针刺激区。针刺方法下可分为毫针刺法、三棱针法、皮肤针法、皮内针法、火针法等。3.5语义关系的分析我们对之前设置完成的语义类型进行分析,并提取它们隐含的各种语义关系。本研究针灸概念语义网络的语义关系共有21种,其中3种是中医药学语言系统中没有出现过的,分别是:络/属;禁用;…的参数。还有4种是语言系统中针灸部分没涉及到的,分别是:产生;引起;先于…发生;与…同时发生。这主要是由于缩小了研究领域,从而领域概念之间的关系得以更加明确和具体的表达。3.6建立基本的语义结构语义类型和语义关系构成网状的语义结构,它起着统领知识源数据概念的作用。本文采用了中文医学信息的语义表达模式,即:“启动词+概念词A+连接词+概念词B+结束词”。其中的“启动词、连接词、结束词”称为语义关系词。通常情况下,构成语义关系词中的启动词、连接词和结束词并不一定同时出现,其中连接词必不可少。例如:在“病理反应是腧穴的特性之一”中出现了连接词和结束词,语义关系词为“是…的特性之一”;在“行针手法引起晕针”中只有连接词,语义关系词为“引起”4语义关系的验证本部分采用我所科研人员胡雪琴开发成功的语义关系自动抽取辅助工具对针灸概念的语义关系进行提示和验证。在工具的文本输入模块中,将相关内容输入进去,经过分词处理后软件会将输入内容与中医药学语言系统之间建立起联系,并映射到基础词库中,不同组别的语义类型会以各异的颜色加以区分显示,而语义关系会以概率的形式表达出来,通过我们人工识别判断后,可以协助对前期工作的结果进行对照和审核,查漏补缺。5语义网络的展示通过本体构建工具protege4.1自带的图形化展示功能将构建完成的语义网络进行可视化结果显示。主要目的是借助图形化手段,更高效和清晰地交流信息,为人们发现规律、解释现象、辅助决策提供强有力的帮助。6讨论和结论6.1讨论现将本工作与之前已构建完成的相关科研成果做个比较分析,内容见下表所通过以上的对比分析,可以看出:国内构建的语义网络相比日韩的术语框架设计更科学合理,收录概念及设计语义关系考虑更为全面,知识应用范围较广泛,结果进行可视化图形展示也更为理想。此外,因为本研究是在中医药学语言系统的基础上完成的,有必要对二者进行一下详细的对比:针灸概念语义网络以针灸学科体系为主,形成了132种语义类型。中医药学语言系统涉及多个学科和领域,因而其语义类型的设置不可能太过详细和具体。本研究中和TCMLS相同的语义类型有37种,分别是“实体”、“事件”、“中医人体基础”、“经络”、“腧穴”、“针灸疗法”、“针灸研究”等大的类别。而有95种语义类型与TCMLS的不相同,其中绝大部分是参照TCMLS的语义类型进一步细分而建立的,比如“针灸疗法”语义类型之下分为“针刺疗法”、“灸法”、“拔罐法”、“腧穴特种疗法”等子类,“针刺疗法”下再分为“毫针刺法”、“三棱针法”、“皮肤针法”、“皮内针法”、“火针法”等;只有一小部分是完全新增加的语义类型,比如“针灸效应”、“针灸量效”等。针灸概念语义网络的语义关系共有21种,比中医药学语言系统针灸部分多了7种,这主要是由于缩小了研究领域,因而领域概念之间的关系得以更加明确和具体的表达。其中3种是中医药学语言系统中没有出现过的,分别是:络/属;禁用;…的参数。还有4种是语言系统中针灸部分没涉及到的,分别是:产生;引起;先于…发生;与…同时发生。本研究的目的就是在中医药学语言系统的基础上重新梳理针灸学科的语义类型和语义关系,构建一个完整的针灸学科语义网络,展现针灸知识体系结构,为相关研究和学习提供基础和帮助。6.2结论中医药语义网络建设是一项长期而又艰巨的任务,其质量的提高对于中医领域的信息化工作起着非常重要的作用。在本文中,我们针对已有针灸语义网络建设中存在的问题,重新构建了针灸概念的语义网络,应用基于语言系统的语义关系发现和抽取工具对其进行了关系验证,实现了结果可视化图形的展示。本研究完成的工作有几下几项:(1)对目前国内外中医药领域语义网络研究背景及应用情况进行了调查研究;(2)在现有中医药学语言系统的基础上重新整合概念体系并梳理了语义关系,涉及概念1705条,语义关联3529项,语义类型132种,语义关系21种;(3)运用语义关系提取工具对系统完成后的语义关系进行了验证并使用本体构建软件protege4.1实现了对结果的可视化图形展示。但是,该系统还有很多不足之处:首先,现在系统的语义类型及语义关系并不十分完整,需要随着学科发展及知识的更新进行动态调整;其次,构建完成的针灸概念语义网络还有待于进一步的提高和完善。在未来的工作计划中,相应的任务将集中在二个方面:一是做好系统的更新和维护,根据实际使用需要随时对系统内数据进行调整和修改;二是在领域专家的协助参与下,提高系统中概念层次结构、概念关联关系等的完备性和正确性。我们相信,通过针灸概念语义网络研究,可以解释针灸概念间的关联关系,能够促进针灸学科理论体系的发展,为相关知识获取、利用及知识体系的完善提供重要的参考和基础。
其他文献
在10kW的电热固体蓄热装置上,对其蓄热过程进行了实验研究,得到了不同加热方式、不同控制温度下蓄热体内温度分布规律、升温速度和蓄热量.
在近代中国,商会扮演着工商制度安排和变迁的参与者角色.具有制度供给和需求双重身份的性质和特征.商会参与公司立法取决于内外因的交互作用:商会本身所具有的参与法制现代化
将蜂窝陶瓷蓄热器的热交换方程转化为无量纲量的微分方程,并进行了数值计算.结果表明,对于蜂窝陶瓷蓄热器,其热交换温度效率和热效率,主要受二个无量纲即两个物理量群(无量纲
目的通过对年轻高血压和窦性心动过速患者长期服用美托洛尔治疗并逐渐增加剂量后行肺功能和气道顺应性监测,评估患者长期服用美托洛尔治疗安全性。方法选取惠州市第六人民医
目的:测定临床常用的4种正畸乳胶牵引圈的拉伸性能,并研究其在人工唾液环境下弹力衰减的特点,为临床应用提供参考。方法:选择具有相同弹性参数(3.5oz)的4种正畸乳胶牵引圈,圈内径分
在虹膜特征提取和匹配领域的研究中,Gabor滤波器是应用最广泛且实验证明其滤波响应与人类视觉区响应波形一致,被视为最具仿生意义的图形滤波器。本文主要从以下几个着手点研
胃癌(gastric cancer)是一种常见肿瘤,全球每年约有70万人死于胃癌。目前对胃癌的治疗以手术切除为主,同时配合放疗和化疗药物治疗,但由于放疗和化疗对机体正常细胞有副作用,导致
近年来,随着我国科技水平不断提高,计算机应用技术也得到了飞速的发展,而数据库作为计算机网络系统中的重要分支之一,发展尤为迅速。从20世纪60年代发展至今,数据库技术已经
将电热丝先固定在一由石蜡和氧化镁粉制成的芯子上,再装入金属管中,可确保电热丝的定位,保证电热管质量。这一工艺的改进,对一般电热管生产厂有所启示。
目的探讨睡眠呼吸暂停综合征(SAS)与血管性认知功能障碍(VCI)之间的相关性。方法 48例SAS合并VCI患者,根据睡眠呼吸障碍的严重程度分为三组(n=16):轻度障碍组、中度障碍组和