面向中药新药研发的语义搜索系统

来源 :中国医学创新 | 被引量 : 0次 | 上传用户:loveqwg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  【摘要】 为解决中药新药研发中的信息集成和检索问题,设计并实现了语义搜索系统TCMSearch。为实现分布式、异构数据库的语义集成和一致性访问,提出语义视图,来定义关系型数据库与领域本体之间的模式映射。该系统根据关系型数据库的语义视图,将用户提出的语义查询重写为结构查询语言(SQL)查询,再分派给各个关系型数据库,最终将查询结果进行语义封装。它还基于本体构建文本内容的语义索引,从而实现了基于概念的内容检索。这些本体驱动的方法,使该系统与关键词搜索系统相比,具有更高的查准率与查全率。该系统已成功部署,它基于一个大型中药领域本体,通过Web方式为中药领域专家提供智能搜索服务。
  【关键词】 语义Web; 语义搜索; 信息检索; 中医药
  中药新药研发是中医药现代化工程中的重要组成部分。它旨在结合中华传统医药学与现代医药学的方法,分析中草药的药理作用、功效和化学成分等特征,并据此研制疗效更好、毒副作用更小的新药。作为一个知识密集型领域,中药新药研发对信息检索技术具有迫切的需求。在中医药信息化的建设中,积累了包括基础理论、中药和方剂、中药化学成分、以及临床试验等方面的信息资源[1],并建立了一系列的数据库查询和文本搜索系统。然而,现有系统存在两个主要问题:一是无法实现分布式、异构信息资源在不同机构和专家之间的充分共享,造成信息孤岛现象,二是基于关键词的搜索系统[2],无法利用各种信息资源之间的语义关联,来实现基于内容的文本检索。针对上述问题,提出通过构建领域本体来定义领域概念之间的语义关联[3],使用语义Web技术解决异构数据集成和文本信息抽取等技术问题[3-4],从而面向该领域提供效果更好的智能搜索服务。
  1 引言
  语义Web是一个去中心化的互联信息空间,它基于本体提供机器可理解的智能数据资源,从而支持大量智能代理进行协作式问题求解和知识发现[3-4]。语义搜索(Semantic Search)是建立在语义Web上的智能应用[5-6],它将用户需求表示为语义查询,以本体驱动的方式在Web环境中检索语义相关的信息资源。相关文献中报告的语义搜索系统,采用了数据库的语义集成[7-8]、语义信息抽取[9]、语义索引[9]、智能语义查询处理[10]、语义关联发现与评级[11]、以及语义资源排序等创新性方法[6],提高了检索结果的相关性和用户满意度[9]。语义搜索技术特别适用于领域概念模型相对复杂的生物医学应用[12-13]。例如,文献[14]提供了一个面向医学领域,基于语义关联和语义排序等技术实现的医学知识产权搜索系统;文献[8]提供了一个面向药物发现和安全性应用的数据库集成和综合查询系统。然而,这些系统都集中于西方医药领域,而未涉及到中医药领域。
  为填补上述空白,提出了一个面向中药新药研发的语义搜索系统TCMSearch,它旨在利用一系列本体驱动的方法,来解决中医药信息检索中面临的问题。针对中医药领域信息的形式多样、管理分散、概念丰富和模式复杂等特点,提出在信息的语义提取、语义互联和语义融合的基础上,提供智能检索服务的设计思路。从功能角度分析,它属于一种混合型的搜索系统,融合了2类语义搜索系统的技术特征:(1)通过对结构性数据的自动浏览、注册、索引和评级,来支持各种智能查询应用[6-7,10];(2)基于本体对文本内容进行语义标注,并建立语义索引,从而提高文本搜索的质量[5,9,13]。该系统的技术贡献主要有3点:(1)针对结构性信息,提出一种基于语义视图的查询重写方法,来支持分布式、异构数据库的语义集成和统一查询;(2)针对文本信息,提出一种语义索引的构建方法,该方法基于本体从文本中提取概念实体和语义关联,利用基于语义图的索引结构加以维护,从而支持各种形式的文本内容检索;(3)设计并实现了多样化的智能搜索服务,包括基于内容的搜索、智能语义查询、语义图浏览、相关概念推荐、按主题的信息综合等,使得用户可以围绕一个领域主题来进行高效而全面的信息检索。
  2 系统的基本原理
  当前Web可视为由互相链接的信息资源(即记录)所构成的图,而语义Web则是由互相联系的事物所构成的图。“文档图(Graph of Documents)”的节点代表各种记录,边代表记录之间的引用关系,该模型反映了信息的实际存储和互联的情况,这是信息技术人员所关心的;“事物图(Graph of Things)”的节点代表各种事物,而边代表语义关联,该模型反映领域事物之间错综复杂的逻辑关系,这是领域专家所关心的。语义搜索的作用,就是实现“文档图”和“事物图”之间的相互映射,语义映射过程包括3个主要任务:(1)词汇-概念映射:领域专家可能用不同的词汇表达同一概念,或用同一词汇表达不同概念,所以词汇和概念之间存在多对多映射。(2)记录-RDF图映射:可以将每一个文档,根据其自身的语义转换为相应的陈述集,并以RDF图的形式加以表示和存储;也可以从RDF图之中出现的陈述回溯到该陈述来源的记录,作为该陈述的证据。(3)关系模式-本体映射:中医药领域的结构性信息资源主要存储于一系列关系型数据库中。为了将关系型数据库转换为在语义Web上可访问的智能数据资源,提出一种模式映射方法。该方法利用语义视图定义关系模式与本体之间的映射,并通过基于语义视图的查询重写,来实现关系数据的语义封装与融合。
  TCMSearch系统可以分为3层:(1)信息资源层:该层对应于文档图,提供了数据库、领域文献和Web页面等信息资源;(2)语义映射层:该层包括语义搜索的核心功能,它从信息资源中提取语义信息,存入领域知识库中,并据此支持语义查询处理;(3)语义服务层:该层对应于事物图,它基于Web环境向用户提供各种搜索服务,并通过人机互动的方式,根据用户请求来构造语义查询并显示搜索结果。
  在语义映射层中,语义提取引擎工作于后台,用于实现从“文档图”到“事物图”的映射过程;语义查询引擎工作于前台,用于实现从“事物图”到“文档图”的映射过程;而领域知识库管理语义映射信息(包含领域本体、语义索引和语义视图)。语义映射方法分为两部分:(1)针对结构性信息(主要为关系型数据库),基于本体来屏蔽数据模式的异构性,提供统一的语义查询服务;(2)针对非结构性信息(即文本记录),从文本中提取语义信息,存入语义索引中,从而支持基于内容的文本搜索。   3 基于语义视图的查询重写方法
  针对异构关系型数据库信息的语义集成问题,提出一种基于语义视图的查询重写方法,它的步骤如下:步骤1,定义语义视图:通过一个语义映射工具,建立关系与本体中类和属性的映射规则;步骤2,构造语义查询:通过一个查询构造器,根据用户输入的请求,自动构造通过本体表达的Sparql查询,作为与底层数据模式无关的中间查询;步骤3,查询重写与结果封装:通过一个查询重写引擎,将中间查询重写为针对底层数据模式的结构查询语言(SQL)查询,将SQL查询分派给对应数据库来完成实际的查询处理,并针对SQL查询的结果进行必要的语义封装与融合,从而获得最终的查询结果。
  查询重写引擎根据语义映射规则,将Sparql查询语句解析为SQL查询语句,并生成SQL查询的执行计划。它包括:(1)查询解析器,它解析语义查询,生成以SQL查询表示的查询计划,其中描述了所要查询的数据的源数据库、关系名、数据列、查询条件以及各个数据表之间的Join关系等;(2)查询执行器,它将SQL查询分发到不同的关系数据库中执行,并将SQL结果集包装为语义查询结果集。
  4 基于领域本体的语义索引
  针对非结构性数据,提出一种基于语义索引的内容检索方法。该方法的主要步骤如下:步骤1,提取文本中的语义信息:对文本内容进行语义分词和语义分析,提取其中出现的一组资源以及它们之间的语义关联,表示为一个RDF图,并通过机器推理方法来推断RDF图中蕴含的假设性语义关联。步骤2,构建文本内容的语义索引:利用基于RDF图的索引结构,来维护从文本记录到其中出现的资源和陈述的匹配关系。步骤3,基于内容匹配的文本检索:对于用户使用的特定查询词或短语,系统首先找出与之语义相关的资源,然后利用这些资源在索引中匹配相关的记录,并将结果集返回。
  语义索引中定义了一系列从资源(包括概念或陈述)到文本记录的映射关系,从而反映了文本记录之间的语义关联。语义索引中包括:(1)词汇-记录矩阵,即从词汇到记录位置的映射;(2)概念-记录矩阵,即从概念到记录位置的映射;(3)陈述-记录矩阵,即从陈述到记录位置的映射。
  语义索引能够支持更加强大的语义搜索。搜索结果既包含与用户输入的查询词匹配的文档,也包括与用户输入在语义上相关的文档。对于用户使用的一个特定查询词,系统也利用其他语义相关的资源进行查询,使得查全率得到提高;如果系统成功识别了一个特定查询词,则利用对应概念查询语义相关的记录(而不一定是词汇匹配的记录),使得查准率得到提高。
  5 TCMSearch的部署情况和应用效果
  TCMSearch现已部署于中国中医科学院(http://www.catcm.ac.cn/),正式投入使用并稳定运行,支持科学研究和新药开发。如图1所示,TCMSearch基于Web界面提供各种交互式的信息检索服务,用户可以通过领域概念驱动的方式,在语义查询、搜索和浏览等检索模式之间灵活转换,从而更加流畅而迅捷地获取相关信息。TCMSearch所支持的3种主要的信息检索模式:(1)基于概念的内容搜索和浏览:该项服务采用搜索引擎的界面风格,系统将匹配的文本记录罗列在界面中央,标注出记录中出现的概念,并将与这些概念的类别和相关概念罗列在右侧。(2)语义查询构造:该服务引导用户根据领域本体构造语义查询,从而满足更加复杂和精确的检索需要。它支持针对单个概念的信息融合,以及多个概念之间的关联查询。(3)语义图浏览:该服务以可视化语义图的方式展示数据。用户可以通过该图来浏览领域概念,更加形象地理解它们之间的关联,也可以选择其中的某个概念开始构造查询或搜索。
  6 结语
  中药制造业的发展,依赖于中西医领域信息资源的整合与共享,语义Web技术将在其中发挥重要的作用。本文介绍了一个实用的大型语义搜索平台TCMSearch,支持中医药领域的分布式、异构数据库集成,为领域专家提供各种智能信息检索服务。它利用基于语义视图的查询重写,语义索引和智能搜索服务等创新技术,改进了该领域信息检索的性能和用户满意度。该系统已经成功部署,并服务于一系列中医药知识保护和利用的应用案例中。
  参考文献
  [1] Feng Y, Wu Z, Zhou X, et al. Knowledge discovery in traditional Chinese medicine: State of the art and perspectives[J]. Artificial Intelligence in Medicine,2006,38(3):219-236.
  [2] Brin S, Page L. The anatomy of a large-scale hypertextual Web search engine[C]//Proceedings of the 7th International Conference on World Wide Web, New York, N.Y., USA: ACM Press,1998:107-117.
  [3] Berners-lee T, Hall W, Hendler J, et al. A framework for web science[J]. Found Trends Web Sci,2006,1(1):1-130.
  [4] Liang B Y, TANG J, LI J Z, et al. Research on knowledge correctness checking in Semantic Web[J]. Computer Integrated Manufacturing Systems,2005,11(3):446-450.
  [5] Guha R, Mccool R, Miller E. Semantic search[C]//Proceedings of the 12th International Conference on World Wide Web, New York, N.Y., USA: ACM Press,2003:700-709.   [6] Ding L, Finin T, Joshi A, et al. Search on the Semantic Web[J]. Computer,2005,38(10):62-69.
  [7] Cheung K, Yip K Y, Smith A, et al. YeastHub: a semantic web use case for integrating data in the life sciences domain[J]. Bioinformatics,2005,21(S1):i85-i96.
  [8] Stephens S, Morales A, Quinlan M. Applying semantic web technologies to drug safety determination[J]. IEEE Intelligent Systems,2006,21(1):82-86.
  [9] Hildebrand M, Ossenbruggen J R, Hardman L. An analysis of search-based user interaction on the Semantic Web[EB/OL]. REPORT INS-E0706, Centrum voor Wiskunde en Informatica, MAY 2007.
  [10] Corby O, Dieng R, Faron C, et al. Searching the semantic Web: approximate query processing based on ontologies[J]. IEEE Intelligent Systems,2006,21(1):20-27.
  [11] Aleman-meza B, Halaschek-wiener C, Arpinar I B, et al. Ranking Complex Relationships on the Semantic Web[J]. IEEE Internet Computing,2005,9(3):37-44.
  [12] Mukherjea S. Information retrieval and knowledge discovery utilizing a biomedical semantic Web[J]. Brief Bioinform,2005,17(6):252-262.
  [13] Lee F, Herman I, Hongsermeier T, et al. The Semantic Web in Action[M]. Sci Am,2007:297.
  [14] Mukherjea S, Bamba B, Kankar P. Information retrieval and knowledge discovery utilizing a bioMedical patent semantic Web[J]. IEEE Transactions on Knowledge and Data Engineering,2005,17(8):1099-1110.
  (收稿日期:2013-06-03) (本文编辑:王宇)
其他文献
本文通过构建企业信用博弈模型论证当前企业信用缺失的主要原因是信息不对称,且对失信行为缺乏足够严厉的惩处措施。分析企业信用缺失的现实根源,解决企业信用缺失问题,关键是构
用自制的含碳量较高的电极用咔和电强化W9Mo3Cr4V钢表面,克服了用YG8电极强化时WC发生分解使碳量损失的缺点,使脉冲放电表面强层硬度提高。
少儿图书馆事业是一项公益性较强的事业,需要社会各界人士的广泛支持才能获得良好的发展。开办少儿图书馆的目的是通过提供信息资料服务的方式满足读者对文化知识的需求。当前
【摘要】图书分编业务的外包是国内外图书馆采用的通常做法,但是由于外包人员素质等综合因素造成了加工质量的下滑,本文用实例从初步加工、分编处理、典藏处理角度分析了实际工作中容易出现的问题,从建立TQM管理体系、加强外包商规范性合作、灵活选择外包模式、提高本馆和外包人员的水平方面对解决问题的办法进行探讨。  【关键词】图书加工;分編;加工质量  现代图书馆的发展要求图书馆一线馆员进行转型,真正实现从“以
随着档案数量的日益增加,旧档案库房逐渐无法满足公司档案部门的工作需求。档案库房的搬迁势在必行,然而有关实体档案搬迁过程的成果却十分有限。笔者在2017年1月参加了云南招
研究了Fe-Ni-Cu-Mo-C系粉末烧结钢中碳和镍分布的不均匀性对下贝氏体组织形貌和分布的影响。结果表明,孔洞及晶界处出现的贫碳区促进下贝氏体组织在其附近优先形成,镍能够抑制下贝氏体针的形
本文认为在实施从紧货币政策及针对房地产行业实施新一轮调控政策背景下,赣州市房地产市场露出现了一些微妙的变化。通过我们调查及对市场供求状况的非均衡估计及预测;2008年赣
<正>由于铜在冶金、地质、生物、医学、工农业、环境监测、食品卫生等部门都有重要应用,因而有关铜的分析,人们作了相当广泛的研究。随着计算机技术、化学计量方法的发展和应
应用弹塑性断裂力学和△J参数,研究了原始状态与热渗氢后347L不锈钢堆焊层短裂 疲劳破坏特性。并用da/dN=C(△J)^n计算了裂纹扩展速度和门槛值。结果表明,在氢的作用下,347L钢堆焊层裂纹扩展的门槛值
分析了钛合金球形瓶爆破的原因有明,球形气瓶开裂属脆性断裂,导致该球形气瓶低压爆破的原因是螺纹孔附近存在Al元素的高度偏析,Al与Ti的原子已接近1:3,该偏析区基本上为本质的脆性金属间化