中医经方知识图谱“图搜索模式”设计研究

来源 :中国中医药信息杂志 | 被引量 : 0次 | 上传用户:shadao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
   摘要:目的  设计中医经方知识图谱及图搜索模式,为经方知识的浏览、检索及运用提供新的设计思路。方法  采用领域本体七步法,以中医经方为研究对象进行知识图谱模式层和数据层设计。运用Neo4j中的Cypher语言设计一种模拟人联想思维进行检索的经方知识检索框架。结果  设计的中医经方知识图谱结构,概念包括方剂、治疗、中药、禁忌证、功用等,概念与概念间关系有方剂→组成部分→中药、方剂→禁忌→证等。模拟人联想思维进行检索的经方知识检索框架包含随证选方、方剂使用禁忌与煎服方法等功能;利用拓扑有向图认知结构模拟“方证对应”的过程;可进行单个医案的经方用药分析及以方测证等功能的智能推理。结论  本研究设计的中医经方知识图谱及图搜索模式,可模拟人联想思维进行经方数据挖掘及分析。
   关键词:经方;知识图谱;Neo4j;图搜索
   中图分类号:R2-05;R222    文献标识码:A    文章编号:1005-5304(2019)08-0094-05
   DOI:10.3969/j.issn.1005-5304.2019.08.019      开放科学(资源服务)标识码(OSID):
   Abstract: Objective To design the knowledge graph of TCM classic prescriptions and its corresponding search mode; To provide a new design idea for browsing, retrieving and using TCM knowledge for case analysis. Methods Taking the TCM classic prescription as the research object, the domain ontology seven-step method was used to design knowledge map pattern layer and data layer. Cypher language of the Neo4j map database was used to design a kind of classic prescriptions retrieval framework by simulating human associative thinking. Results The designed structure of knowledge graph of TCM classic prescription: concepts included prescriptions, treatment, Chinese materia medica, contraindications and functions. The relationship between concepts was prescription → component → Chinese materia medica, prescription → taboo → syndrome. The functional knowledge retrieval framework through simulating human associative thinking included functions such as the selection of prescriptions, the use taboos of prescriptions and the method of decoction; the process of simulating the “prescription and syndrome correspondence” by using the topological directed graph cognitive structure; the intelligent reasoning of the functions of the individual medical treatment, such as prescription analysis and prescription testing. Conclusion Graph search pattern and knowledge graph of TCM classic prescriptions designed in this study can simulate human associative thinking to conduct data mining and analysis for classic prescriptions.
   Keywords: classic prescriptions; knowledge graph; Neo4j; graph search
   “经方”一词最早见《汉书·艺文志·方技略》,原指经验之方,包括中医经典著作中記载的方剂,现主要指《伤寒论》《金匮要略》所载方剂,合为323首,减去重复方43首,计280首[1]。其用药精专,法度严谨,被广泛应用于临床且疗效显著。
   近年来,特定领域的知识图谱构建一直是研究的热点。从搜索引擎优化到新药发现,知识图谱已渗透到金融、工业和医学等各领域。中医药领域已开展了中医结合知识图谱的相关研究[2]。于彤等[3]进行了中医养生知识图谱的构建研究。杨秦等[4]采用共词分析及社会网络方法对中医外科疮疡领域的研究主题及分布进行了探索。但中医经方知识图谱及基于知识图谱的经方检索、浏览与数据分析的图搜索设计的相关研究鲜见报道。    构建经方知识图谱及与其相应的搜索模式,可将经方知识表达成更接近人类认知的结构,而基于此结构进行拟人思维的检索、浏览与数据分析,为中医现代化背景下的中医经方研究提供了新的切入点。同时,也可为经方知识的浏览、检索及运用经方知识进行案例分析提供一种新的设计思路。为此,本研究结合图数据管理系统进行经方知识图谱及图搜索模式的设计。
  1  知识图谱
   2012年5月17日,谷歌正式提出了“知识图谱”这个术语[5]。其吸收了语义网的实例表达与本体概念表达理念,以“概念→关系→概念”“实体→关系→实体”三元组描述真实世界中存在的各种概念或实体,以及各种实体、概念之间的关系[6-8]。其中概念是指事物的本质属性,如桂枝汤、麻黄汤的概念为方剂。实体是指概念下的具体实例,如“桂枝汤”是“方剂”概念下的一个具体实例。概念、实体间则进一步通过“关系”连接在一起,从而得到的一张巨大的由“三元组”对知识进行表示的图。
   以“桂枝汤”为例,其组成药物包括“桂枝、芍药、生姜、大枣、甘草”,利用知识图谱的“三元组”结构对其进行描述。其“概念→关系→概念”为:方剂→组成部分→中药;“实体→关系→实体”为:桂枝汤→组成部分→桂枝,…,桂枝汤→组成部分→甘草。见图1。这种描述结构与人类认知结构中的拓扑认知[9]结构相符合,是一种人类认知结构模拟。
   综上,知识图谱是以“三元组”形式描述知識数据的数据库,其结构与人的认知结构相契合,从而为模拟人的认知思维进行经方数据的挖掘、分析提供了数据支持。
   随着计算机数据库技术的发展,图数据库已成为知识图谱的一种载体,可实现图数据的储存与检索[10-11]。其中Neo4j是一个高性能的图数据库[10,12],它将结构化数据存储于网络,数据模型主要以节点和关系(边)体现,也可处理键值对(即描述事物的属性)。即Neo4j以节点、关系、属性为基本元素,提供了较为完备的事物描述结构。这为经方知识图谱的建立提供了技术支持,为其实现提供了可能。
  2  图搜索模式
   图搜索模式是一种图数据的模式匹配方法,是在图数据库的基础上,根据给定的信息,从大量的图数据中匹配出这些信息所指向的结果,并展现给定信息与结果间的关系[13]。简而言之,图搜索模式是利用图数据库中存储的数据,对输入的信息按照设定的图搜索方式,检索出对应的结果,并展现其逻辑路径。
   中医药大型知识图谱的图搜索[14],实现了输入中药名称给出相应的语义网络、输入中药的所属概念等信息即给出以输入实例为核心的由“实体→关系→实体”三元组构成的实例知识网络及其所属的概念,如输入“生姜”,将显示以“生姜”为中心的相关知识网络及“生姜”所属的概念为“中药”。见图2。
   相比于传统的搜索模式,这种图搜索的优势在于更契合人类的联想认知,通过“生姜”联想到“中药”,又可通过“中药”联想到“止呕药”“化痰药”等。将这种模拟思维联想的图搜索用于答案获取,可淘汰现有的人工过滤网页寻找答案的模式。如想知道桂枝汤的功效类别及该类别的其他方剂,仅需通过图搜索对桂枝汤进行检索,即可获得以“桂枝汤”为核心的知识图,及桂枝汤所属的概念“解表剂”,进而可得到“解表剂”概念下的所有方剂。
   Neo4j图数据库作为知识图谱的一种载体,不但能将知识以图模式进行存储,而且提供了图搜索模式的设计框架,这为设计以人类认知思维进行经方数据挖掘、分析的图搜索提供了技术支持。基于这一技术对经方知识图谱与相应的图搜索模式进行设计,有望设计出一种具有拟人思维的智能体,用于经方知识的检索与数据分析。
  3  经方知识图谱设计
   经方知识图谱按照知识图谱的结构,分为2个层次:数据层和模式层[15]。模式层由表达概念的本体构成,即概念及概念间的关系组成的“三元组”,用于约束数据的概念。数据层由实例构成,即概念下的具体实例。其概念与实例的具体设计按照斯坦福大学医学院提出的适合医学领域的领域本体七步法[16]进行构建,即:①定义领域和范畴;②考查复用现有知识本体的可能性;③列出知识本体中的重要术语;④定义类和类的等级体系;⑤定义类的属性;⑥定义属性的分面;⑦创建实例。
  3.1  模式层设计
   对经方知识图谱的模式层的设计实际上是对经方概念及其概念间关系的设计,这一过程按领域本体七步法中的1~6步进行,其设计出的概念可有:方剂、治疗、中药、禁忌证、功用等;设计的概念与概念间关系有:方剂→组成部分→中药,方剂→禁忌→证等。
  3.2  数据层设计
   数据层的设计实际上是设计本体下的具体实例,即模式层概念及概念间关系对应的具体实例。如“桂枝”为“中药”概念下的具体实例,“桂枝汤”为“方剂”概念下的具体实例,用“三元组”表示为“桂枝汤→组成部分→桂枝”。见图3。
   经方知识图谱按照该设计思路进行,对知识数据可形成结构化的描述,这将提供一种拟人认知结构的数据库,为进一步模拟人的思维进行数据的搜索与分析提供数据支撑。由于其知识的复杂性,本研究具体设计与实现在领域专家指导下结合领域本体七步法进行。
  4  经方知识图谱的图搜索模式设计
   经方知识图谱的图搜索模式在知识图谱基础上结合其组成、主治、禁忌、煎服法及所含药物的禁忌、功用等,运用Neo4j中的Cypher语言设计一种模拟人联想思维进行检索的经方知识检索框架,包含随证选方、方剂使用禁忌与煎服方法等功能;利用拓扑有向图认知结构模拟“方证对应”的过程;可进行单个医案的经方用药分析及以方测证等功能的智能推理。框架设计见图4。
   通过不同的思维路径可完成经方知识检索、以方测证及单个医案的经方用药等智能推理,如输入药物进行主方辨识及推测可能证候与主方加减用药原因。    本研究将知识图谱概念层内以中文表述的概念与关系转为英文,以便于运用计算机语言进行图搜索设计,所用Cypher语句表见表1,其对应关系见表2。
  4.1  知识检索框架
  4.1.1  随证选方的搜索设计
   随证选方的设计旨在根据提供的证给出对应的方,即实现“证”与“方”的匹配,完成中医有是证用是方的“方证对应”过程。
   根据以上搜索设计目标,设计其匹配规则为:
   上式中,S是证,Syndrome为证候这一概念的英文表达,Formula为方剂这一概念的英文表达。D是匹配出的方剂。如S=[“太阳中风表虚证”],则可通过如图4中方到证匹配路径,输出”桂枝汤”。
  4.1.2  方剂使用禁忌与煎服法的搜索设计
   使用禁忌与煎服法的搜索设计旨在输入拟使用的方剂,输出此方的禁忌项和与其相应的特殊煎服方法。即设计旨在实现以下目标:①方的禁忌证的匹配,即根据方检索出方相应的禁忌证,以减少临床误治。②方的煎服方法匹配,提高临床疗效。
   根据以上搜索设计目标,设计其匹配规则为:
   式中,F为拟使用的方剂,D.name与F.decoction为返回的该方剂对应的禁忌与煎服方法。如“桂枝汤→禁忌→伤寒表实证”。
   可以看出,虽各项检索完成的任务不相同,但其检索设计均为以下2种表达式的组合:
   式1:MATCH(实例变量1:概念变量)WHERE实例变量.属性=/in输入变量RETURN实例变量1
   式2:MATCH(实例变量1)-[]→(实例变量2:概念变量)RETURN实例变量2
   以上2种表达式的组合可对图中实体与概念进行匹配搜索,通过变量的变化,设计多种经方知识的检索任务。与纯文字的匹配查询比较,该设计有望为经方知识的检索查询提供一种类似人联想思维的经方知识检索方法,使经方知识检索更智能。
  4.2  智能推理框架
   智能推理旨在运用知识图谱中的知识与Cypher指令编写的“方证对应”图搜索过程对单个案例实现以方测证、组方用药等分析。设计如下:①根据案例中的药物,分析出其中所用的主要“经方”,即案例中的“主方”。②以“方证对应”的方式推测主方所治证候,即以方测证。③依据药物的功用及禁忌,推测该案例中主方的药物加减原因。其表达式为:
   式中,A是案例中的药物。B是匹配的方剂,B可为1个或多个方剂即B=[B1,B2,B3,...,Bn]。依据方到药的匹配路径,进一步得出相应方剂B的组成药物G,即G=[G1桂枝汤组成药物,G2麻黄汤组成药物,...,Gn葛根汤组成药物]。j为杰卡德相似度公式用于计算出主方。
   其中式(5)~式(7)实现根据案例中的药物分析出对应的主方,即根据案例中的药物检索出包含这些药物中的一味药或多味药的方剂,将案例中的药物与式(6)所给出的方剂中的药物进行相似度比较以此确定案例中的主方。如设置信度时,当相似度>0.8,则纳入为该案例的主方。即上述3步可完成“药→候选方→候选方匹配度计算→根据匹配度得出主方”的过程。如输入中药为半夏、黄芩、干姜、人参、炙甘草、黄连、大枣、生牡蛎,可匹配出生姜泻心汤、甘草泻心汤、及半夏泻心汤、这三者的相似度为0.77、0.87、0.87。根据“方”与“证”匹配到寒热错杂证,此时根据主方用药量即可确定具体主方。如甘草用量为12 g,即为甘草泻心汤,否則为半夏泻心汤。
   式(9)~式(10)旨在将案例中的药物与主方药物进行二者的补集运算,M为对应案例中所用主方的原方药物,以此集合运算即可在主方基础上找出增加或去除的药物,即W(主方基础上增加的药物)与K(主方中去除的药物)。
   式(11)~式(13)旨在根据加减的药物联想出其对应的功用与禁忌,以此作为该医案中主方加减的原因之一。如生牡蛎为主方所加药物,则输出为平肝潜阳、镇静安神、收敛固涩等,故推断出患者可能有心烦易急、惊悸失眠、眩晕耳鸣等症状。
   综上,其智能推理框架可分析方剂使用及药物加减思路,除用药频次等数理统计外,提供对单个医案的解读方法与思路。
  5  结语
   知识图谱是近年来互联网领域中出现的新兴技术,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及其相互联系,为学科研究提供直观参考。本研究基于经方知识图谱,使用Neo4j图数据管理系统提供的Cypher查询语言进行图搜索模式设计。
   本研究搜索方案仅依据中医以方测证进行医案分析的初步设计,为使知识图谱的检索更契合人类的认知结构和思维模式,但仍存在一些问题亟待解决。如方剂临证加减的药物与基础方剂中药物是否有交互作用;增加的药物根据药物本身的功效还是根据某处方中的药对;减去原方中的某味药物是与药物本身的禁忌相关还是与增加的药物有某种交互作用(如相杀关系)等。上述问题有待通过进一步解析中医临证时的用药思维模式,完善图搜索设计中“三元组”要素关系等加以解决,从而使知识图谱更加契合中医临床辨证论治的需要。
  参考文献:
  [1] 李宇航.《伤寒论》用药剂量与配伍比例研究[M].北京:人民卫生出版社,2015.
  [2] 李新龙,刘岩,何丽云,等.知识图谱研究概况及其在中医药领域的应用[J].中国中医药信息杂志,2017,24(7):129-132.
  [3] 于彤,李敬华,于琦,等.中医养生知识图谱的构建与应用[J].中国数字医学,2017,12(12):64-66.
  [4] 杨秦,曾莉,李文林.中医外科关于疮疡研究的知识图谱分析[J].南京中医药大学学报,2012,28(6):535-537.   [5] SINGHAL A. Introducing the Knowledge Graph:things, notstrings[EB/OL]. (2012-05-16)[2018-07-20].http://googleblog.blogspot.com/2012/05/introducing-knowledge-graph-things-not.html.
  [6] SUMMERS-STAY D. Deductive and analogical reasoning on a semantically embedded knowledge graph[C]//International Conference on Artificial General Intelligence.Springer,Cham, 2017:112-122.
  [7] 袁磊,张浩,陈静,等.基于本体化知识模型的知识库构建模式研究[J].计算机工程与应用,2001,42(30):64-68,104.
  [8] 张德政,谢永红,李曼,等.基于本体的中医知识图谱构建[J].情报工程,2017,3(1):35-42.
  [9] 印世海.概念拓扑同化论[J].外国语(上海外国语大学学报),2012, 35(5):46-53.
  [10] 肖庆都,屈亮亮,侯霞.基于Neo4j图数据库的课程体系知识图谱系统设計与实现[J].电脑知识与技术,2017,13(36):130-132.
  [11] ABREU D D, FLORES A, PALMA G, et al. Choosing between graph databases and RDF engines for consuming and mining linked data[C]//International Conference on Consuming Linked Data. Sydney:Australia Aachen CEUR-WS.org,2013:37-49.
  [12] 程耀东,赵建昌,徐军.图形数据库应用技术研究[J].图学学报, 2006,27(1):143-148.
  [13] 马帅,李佳,刘旭东,等.图查询:社会计算时代的新型搜索[J].中国计算机学会通讯,2012,8(11):26-31.
  [14] 贾李蓉,刘静,于彤,等.中医药知识图谱构建[J].医学信息学杂志, 2015,36(8):51-53.
  [15] 李秀玲,张树生,黄瑞,等.基于工艺知识图谱的异构CAM模型结构化建模方法[J].计算机辅助设计与图形学学报,2018,30(7):1346.
  [16] NOY N F, M C GUINNESS D L. Ontology Development 101:A Guide to creating your first ontology[R]. KSL-01-05. Stanford Knowledge Systems Laboratory Technial Report,2001.
  (收稿日期:2018-08-28)
  (修回日期:2018-10-26;编辑:向宇雁)
其他文献
2012年度国家科学技术奖的报奖工作开始启动。工作进度流程是如何安排的?2012年申报国家奖该注意什么问题?如何防范2011年因报奖出现过的问题?……
7月18日。2012年度全国质量技术奖励大会暨第十届全国六西格玛大会在成都召开。每年一度的全国质量技术奖励大会暨全国六西格玛大会,既是对我国广大企业应用质量技术的表彰和
在西北地区东部 ,降水量具有清楚的年代际变化 ;90年代以来 ,干旱区域的面积扩大 ,强度加强 ,并向东南方向推移 ,显示出干旱化的趋向。
摘要:目的 探討補肾中药对肾虚体质大鼠生长发育及脑组织胆碱乙酰化酶(CHAc)含量的调节作用。方法 采用“猫吓鼠”方法制作先天不足加后天失养复合型肾虚模型。造模大鼠随机分为模型组、左归丸组和右归丸组,空白组大鼠产自正常孕鼠。对仔鼠恐吓同时开始灌胃给药,药物组给予左归丸和右归丸混悬液,空白组和模型组予等量生理盐水,每日1次,连续3个月。观察大鼠生长发育一般状况,记录5~8周龄各组大鼠体质量和平均食物
安全高产高效矿井建设技术研发;枸杞种质创新与遗传改良研究
2006年开始,江西农业大学联合江西省农业科学院有关人员开展双季稻超高产标准栽培技术研究,并将“双季超级稻早蘖壮秆强源高产栽培技术研究与应用”作为关键课题进行技术攻关,对
利用1997年和1998年6~8月间在甘肃平凉地区的3站闪电定位系统所取得的地闪资料与当天早晨探空资料进行了初步的统计分析.分析表明, 对流风暴中地闪活动与环境层结因子之间有较
10月28日,我国首支核潜艇部队解密,中国海军公开大批核潜艇部队的照片,一时引起广泛关注。潜艇一直是现代军舰中最神秘的舰种,它靠自身的隐蔽性消灭敌人,然而这样一个神出鬼
2008年国家推出“千人计划”,引发了各地推出人才计划的新高潮。人才计划助推了各地的人才引进,但另一方面也带来了一些问题,例如,吸引高端人才方面依然缺乏竞争力,而且顶尖人才流
利用微秒级时间分辨率的宽带慢天线电场变化仪首次在中国内陆高原地区对雷暴过程中的正、负地闪特征进行了测量和系统分析,发现每次雷暴过程中正闪的比例有随总闪频数增大而