中医文本信息抽取系统

来源 :中国医学创新 | 被引量 : 0次 | 上传用户:fanmw960
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  【摘要】 近年来,文本信息抽取成为中医文献知识挖掘的一种新兴手段。构建了基于本体的中医文本信息抽取系统,它能从中医文献中提取领域概念及语义关系,并支持用户完成文本语义关系的检阅、分析和标注等工作。该系统能辅助中医专家从中医文献中挖掘知识,并进一步完善中医领域本体系统。
  【关键词】 中医药; 文本信息抽取; 本体
  【Abstract】 Text information extraction became a novel mechanism for knowledge mining from texts in Traditional Chinese Medicine (TCM) domain in recent years.We constructed an ontology-based text information extraction system for TCM domain.It can extract semantic relations from TCM texts,and support users to browse,analyze,and annotate these relations. This system can facilitate TCM experts to acquire knowledge from TCM documents, and further refine TCM domain ontologies.
  【Key words】 Traditional Chinese Medicine; Text information extraction; Ontology
  First-author’s address:Information Institute of Traditional Chinese Medicine, China Academy of Chinese Medical Sciences, Beijing 100700,China
  doi:10.3969/j.issn.1674-4985.2015.21.040
  中医药文献是中医药文化的重要载体之一,记载着历代医家的智慧和经验。如何对浩如烟海的中医药文献进行系统梳理和深度挖掘,是中医药知识管理中的一个重要问题[1-2]。文本信息抽取(Text Information Extraction)是指从一段文本中自动抽取特定信息的计算机技术,它能显著提升人类处理海量文献并从中获取知识的效率[3-4]。文本信息抽取的任务包括命名实体识别[5]、语义关系发现[6]、事件抽取[7]、情感分析[8]等。笔者构建了基于本体的文本信息抽取系统,用于辅助中医专家从中医文献中挖掘知识,并进一步完善中医领域本体系统。本文介绍该系统所使用的文本信息抽取方法,以及该系统的主要功能和使用情况。
  1 文本信息抽取方法
  该系统使用一种本体驱动的文本信息抽取方法。本体(Ontology)是一种用于表示领域知识的计算机模型,它能帮助计算机更好地理解领域术语并处理文本内容[9]。它定义了一个领域中的语义类型和语义关系,并构建了领域的概念层次结构和语义网络[10]。中医界从本世纪开始在中医药领域中引入了本体技术,对该领域的概念和术语体系进行系统性的表达[11]。其中的代表性系统包括中医药学语言系统和中医古籍语言系统等[12-13]。本体为文本信息抽取提供了领域背景知识,可将领域本体与文法分析技术相结合,从而改进文本信息抽取的效果[9,14]。本系统基于中医药本体,从文献中提取关键性词汇,识别领域概念,进而发现领域实体之间的语义关系。信息提取有2种途径:(1)关系提取,即理解作者在文本中直接提出的显性关系;(2)假设生成,即根据显性关系推理出文本中并未直接提出的隐性关系。该方法包括如下4步。
  第一步、提取关键性词汇。文本中仅有部分词汇有助于机器理解文本中蕴含的语义关系,这部分词汇被称为关键性词汇。首先,根据应用需求,从本体中导出关键性词汇,创建领域词库。例如,在药物发现应用中,“药物组成”“感冒”“甘草”“主治”等词汇往往用于表示领域专家关切的医药学关系,而“西藏”等地理名称一般不可能构成有意义的医药学关联。又如,中医古籍文献中的某些关键动词(如“主”)往往对应概念之间的语义关系(如“管理”),因此需要找出这些关键动词,并建立关键动词与语义关系之间的对照表。在建立关键性词汇的词库后,利用一种词库驱动的最大匹配算法,从文献中提取关键性词汇,从而将原始的中文文本转化为词汇序列。
  第二步、识别关键性概念。为消除领域知识表达中的歧义性,领域本体中定义了概念和词汇之间的语义关系,包括概念的正名和异名等。机器根据领域本体从词汇序列中识别对应的概念,并判断概念的语义类型。例如,根据本体中定义的异名关系〈甘草,藏名,‘相额尔’〉(即甘草在藏医药学中称为‘相额尔’),将藏医药学文本中出现的词汇‘相额尔’理解为概念甘草;并根据本体中定义的类型关系〈甘草,rdf:type,草药〉,将概念甘草归属于草药这个类。此后,将概念及其类别加入词汇序列中的对应位置,生成文本对应的概念序列。
  第三步、抽取语义关系。通过一系列预先定义的语义模板与概念序列进行匹配,若匹配成功则生成对应的陈述。该过程分为3步:(1)基于领域本体生成一个语义模板库,其中的每个语义模板为由领域概念和词汇构成的三元组;(2)根据资源序列中出现的概念在模板库中检索对应的一系列语义模板;(3)将每个模板与资源序列匹配,如果匹配成功,则生成对应的陈述。例如,针对文本“[七十味珍珠丸]的[药物组成]为:…… [相额尔] ……”,首先提取出其中的3个关键词,并识别对应的概念;其次根据本体中定义的概念类型〈七十味珍珠丸,类型,方剂〉和〈甘草(相额尔),类型,药物〉,获取相应的模板〈方剂,‘药物组成’,药物〉;最后,将模板与资源序列匹配,从而推出陈述:〈七十味珍珠丸,包含,甘草〉。将所获得的陈述融合为一个图,并将其加入索引结构中。   第四步、推导假设性语义关系。根据文本中的语义信息,使用领域规则进一步推导出假设性的语义关系。领域规则形如 BodyHead,在Body和Head中均可出现变量。例如,规则R1:〈?x, 包含,?y〉 〈?y, 属于,?x〉表示对于任意x和y,如果x包含y,那么y属于x;根据规则R1和陈述〈七十味珍珠丸,包含,甘草〉,可以推出〈甘草,属于,七十味珍珠丸〉。又如,规则R2:〈?x, 包含,?y〉〈?y, 具有功效,?z〉 〈?x, 具有功效,?z〉表示如果某种药物x的成分y具有功效z,则x具有功效z;根据规则R2和〈七十味珍珠丸,包含,当归〉、〈当归,具有功效,补血〉可推出〈七十味珍珠丸,具有功效,补血〉。
  下面通过一个关于方剂生化汤的案例来解释上述过程。下面是《中华药典》中描述传统方剂生化汤的组成和功效的部分文本:“ ……[生化汤]中重用[当归],补血活血,祛瘀生新为[君];[川芎]行血中之气,[桃仁]活血祛瘀为[臣];[黑姜]入血散寒,温里定痛为[佐];[炙甘草]调和诸药为[使]。[功效]为[活血化瘀] ……”。首先,根据中医领域本体,从词汇序列中提取对应的概念,并对概念归类。据本体可知,生化汤为方剂的实例,当归、川芎、桃仁、黑姜和炙甘草为中药的实例,活血化瘀为功效的实例。进而,提取文中的语义关系。例如,根据模板〈方剂,药物,‘君’〉,和序列(生化汤,当归,‘君’),推出:〈生化汤,君,当归〉。最后,根据已知的语义关系生成假设。例如,根据陈述〈生化汤,具有功效,活血化瘀〉和规则〈?x, 具有功效,活血化瘀〉 〈?x, 治疗,血瘀证〉,推出假设:〈生化汤,治疗,血瘀证〉。提取出的语义信息构成了如图1所示的语义图。
  2 文本信息抽取系统
  笔者采用上面的方法,构建了中医文本信息抽取系统。该系统基于本体对中医文献进行处理,自动识别其中出现的中医概念,生成文本内容的索引。该系统还能从文本中自动发现语义关系,再将所发现的语义关系交由领域专家进行检验。笔者以综合性医学著作《医学纲目》等中医古籍作为试验文本对该系统进行了测试。该系统基于“中医古籍语言系统”对中医古籍进行处理,从中提取出中医药领域概念及其语义关系,取得了良好的效果。
  该系统还实现了文本语义关系管理与检阅的功能,对从文本中发现的语义关系进行集中管理,支持用户查看语义关系在中医文本中的用法,并完成语义关系的检阅、分析和标注工作。如图2所示,该系统以网页的形式展示《医学纲目》古籍全文,以不同的颜色标出文本中出现的中医名词和谓词。该系统在左侧建立书籍目录导航,在页面主体部分显示全文,自动识别文中出现的中医概念并在文本右侧列出,用户可点击查看概念定义。该系统还找出文中出现的谓词,据此识别文中出现的语义关系。用户也可以点击查看原文中蕴含的语义关系。该系统还实现了中医本体加工辅助工具,将文本语义关系正式插入某个本体系统,为中医本体的修订和完善提供可行的技术路径。
  3 小结
  中医药文献是中医药知识共享的主要手段。近年来,随着文字识别等信息技术的广泛应用,大量的中医药文献被转换为数字文件、数据库等数字资源[15]。中医药文献的数字化,为将文本信息抽取等各种文献处理技术应用于中医药领域奠定了基础。本文介绍了中医文本信息抽取系统,它能从中医文献中提取领域实体及语义关系,并支持用户完成文本语义关系的检阅、分析和标注工作。这套系统能辅助中医专家开展文献知识挖掘工作,为梳理中医药知识体系,实现中医文献和知识的共享和重用提供技术支持。
  参考文献
  [1]刘毅.中医古籍数字化与知识挖掘[J].图书馆工作与研究,2010,14(12):92-94.
  [2]周雪忠,崔蒙,吴朝晖,等.基于文本挖掘的中医学文献主题自动标引[J].中国中医药信息杂志,2003,10(1):71-74.
  [3]顾铮,顾平.信息抽取技术在中医研究中的应用[J].医学信息,2007,20(1):27-30.
  [4]杨博,蔡东风,杨华,等.开放式信息抽取研究进展[J].中文信息学报,2014,28(4):1-11,36.
  [5]赵军.命名实体识别、排歧和跨语言关联[J].中文信息学报,2009,23(2):3-17.
  [6]陶金火,陈华钧,胡雪琴,等.中医药文献语义关系图发现[J].计算机科学,2011,38(3):213-217,251.
  [7]吴家皋,周凡坤,张雪英,等.HMM模型和句法分析相结合的事件属性信息抽取[J].南京师大学报(自然科学版),2014,14(1):30-34.
  [8]赵妍妍,秦兵,刘挺,等.文本情感分析[J].软件学报,2010,21(8):1834-1848.
  [9]丁晟春,刘逶迤,熊霞,等.基于领域本体和语块分析的信息抽取的研究与实现[J].情报学报,2010,29(1):53-58.
  [10] Gruber T R. Ontology. Entry in the Encyclopedia of Database Systems, Ling Liu and M[M]. Tamer ?zsu (Eds.), Springer-Verlag, 2008.
  [11]于彤,崔蒙,李敬华,等. 中医药本体工程研究现状[J]. 中国中医药信息杂志,2013,20(7):110-112.
  [12]贾李蓉,杨硕,董燕,等.中医药学语言系统评价体系的研究与建立[J]. 中国数字医学,2012,7(10):13-16.
  [13]朱玲,尹爱宁,崔蒙,等.中医古籍语言系统构建的关键问题与对策[J].中国中医药信息杂志,2010,17(4):98-99.
  [14]方纯洁,王波,罗杰,等.基于信息抽取的中医药文献知识发现[J].浙江中医药大学学报,2012,36(1):88-90,96.
  [15]张稚鲲,李文林.古籍数字化建设的文献计量学研究[J].图书馆理论与实践,2011,12(2):45-51.
  (收稿日期:2014-12-10) (本文编辑:陈丹云)
其他文献
【摘要】 目的:探讨PND对乳腺癌多药耐药的逆转作用。方法:选取2014年1月-2015年1月本院收治的64例乳腺癌患者,按随机数字表法分为观察组和对照组,对照组给予化疗,观察组给予PND配合化疗进行治疗,观察两组临床疗效,比较免疫指标变化情况及患者生活质量。结果:观察组临床治疗总控制率为93.75%(30例),对照组为81.25%(26例);观察组CD3+、CD4+、CD4+/CD8+及NK值均
期刊
【摘要】 目的:探讨氮卓斯汀鼻喷剂联合地氯雷他定治疗过敏性鼻炎的临床疗效和安全性。方法:选取2012年  1月-2014年9月本院收治的174例过敏性鼻炎患者作为研究对象,采用随机数字表法将所选患者分为研究组和对照组,每组各87例。对照组患者使用氮卓斯汀鼻喷剂治疗,研究组患者在对照组基础上使用地氯雷他定治疗。综合比较两组患者治疗总有效率、治疗前后各证候积分及不良反应发生率的差异。结果:研究组患者治
期刊
【摘要】 目的:为提高社区卫生综合实力促进可持续发展,增加合理经济收入,着重解决社区卫生服务中心(以下称社卫中心)站点开展检验难、群众不便、医疗质量提高受限等问题。方法:收集站点分散的医学检验资源,成立自身中心检验室集中检测,建立站点标本采集、查对、保管、运输、集中检验、结果反馈等完整配套运作系统,探索固定模式。2013年11月-2014年10月站点检验资源整合后的检测数量及经济收入为研究组;20
期刊
【摘要】 目的:探讨TFPI-2在食管鳞癌组织中的表达及其临床意义。方法:采用免疫组织化学(Immunohistochemistry,IHC)SP法测定TFPI-2在食管鳞癌组织、癌旁组织、正常食管组织中的表达。结果:TFPI-2表达阳性指数在食管鳞癌组织、癌旁组织、正常食管组织中分别为(16.25±9.57)%、(22.41±7.24)%、(27.76±5.30)%。食管鳞癌中淋巴结转移、大小、
期刊
【摘要】 目的:探讨银杏内酯B对视神经钳夹伤后大鼠视网膜神经节细胞(RGCs)的保护作用。方法:取出生后42 d的SD大鼠36只,随机抽取12只为A组(正常对照组);24只分离暴露视神经并进行视神经钳夹后随机分为B组(模型组)和C组(GB治疗组),每组12只。每只鼠的右眼用于实验。A组不作任何处理,B、C组分别于实验前1周每日腹腔注射相应体积生理盐水和银杏内酯B(GB)40 mg/kg,术后继续给
期刊
【摘要】 目的:探讨超声联合钼靶X线对162例乳腺腺病的诊断价值。方法:收集同时行超声及乳腺钼靶X线检查并经手术病理证实的乳腺腺病162例,回顾性分析其超声声像图特点和钼靶X线的特点。结果:超声联合钼靶X线诊断乳腺腺病的准确率为80.2%,较超声及钼靶X线单独诊断腺病的准确率均高,比较差异有统计学意义(P<0.05)。结论:超声联合钼靶X线可提高乳腺腺病诊断准确性。  【关键词】 乳腺腺病; 超声
期刊
【摘要】 目的:观察REM-PCL对体外循环(CPB)中犬心肌线粒体抗氧化能力的影响。方法:采用CPB心肌缺血再灌注模型,12只犬随机分为REM-PCL组(RP组,n=6)和对照组(C组,n=6)。RP组和C组分别于CPB前静脉注射0.2 mg/kg REM-PCL及等量生理盐水。两组分别于转机前、缺血60 min、再灌注30 min和60 min时,检测总抗氧化能力(T-AOC)、谷胱甘肽过氧化
期刊
【摘要】 目的:探讨皮损内注射得宝松规律性停药对治疗瘢痕疙瘩临床效果的影响。方法:选择2007年1月-2014年12月期间到本院就诊的符合瘢痕疙瘩诊断的患者156例,采用随机数字表法将其分成A、B两组,A组为试验组共81例,B组为对照组共75例。A组在瘢痕疙瘩皮损内注射,采取逐渐减少浓度的方法规律停药;B组采用常规疗程停药方法。观察6个月,评估两组患者治疗效果及复发情况。结果:两组在治疗后1个月与
期刊
【摘要】 目的:探讨血清N-乙酰天门冬氨酸(N-acetylaspartic acid,NAA)对早期神经系统变性疾病的诊断价值。方法:选取阿尔茨海默病(AD)患者、帕金森病(PD)患者及正常老年人(NC)各30例。首先分别进行头颅磁共振平扫,而后行磁共振波谱检查,计算双侧海马区、内侧颞叶区NAA/Cr,NAA/mI值,其次利用气相色谱-质谱联用仪检查其血清NAA值;最后用方差分析对数据进行统计分
期刊
【摘要】 目的:探讨动态血清降钙素原(PCT)监测在指导优化脑出血发热患者抗感染治疗中的作用,为临床合理用药提供参考。方法:选取2014年1月-2015年1月本院收治的脑出血伴发热患者68例作为研究对象,采用随机数字表法将所选患者分为两组,PCT指导治疗组(PCT组)34例根据PCT动态值确定抗菌药的使用,常规治疗组(对照组)34例则由临床医师根据患者临床情况、实验室检查给予经验性抗菌药治疗;以治
期刊