论文部分内容阅读
健康是人类最宝贵的财富,近些年人们对自身健康关注程度与日俱增。随着信息技术在生物医学领域上的飞速发展以及互联网和移动通信设备的普及,用户可以更方便、快捷地获取海量的医疗健康知识。为了从这些海量的医疗健康知识中快速准确地获得所需信息,并解决不同检索语言以及概念表达的差异性问题,美国国立医学图书馆主持研发了一个生物医学与健康领域的本体--一体化医学语言系统(Unified Medical Language System,简称UMLS)。UMLS是针对生物医学与健康领域的本体知识库,为生物医学与健康相关研究人员提供专业术语及相关知识的支持。UMLS综合了众多生物医学领域词表,在术语研究、术语映射、智能信息检索和自然语言处理等领域被广泛应用。除此之外,UMLS还提供了众多支持性软件工具供用户更加方便地使用。本文在对UMLS的组织结构和内容进行了详细描述和分析的基础上,研究了UMLS的中文化和概念间关系的形式化表示方法。中文化研究主要分为两部分:对概念的中文化和对它们之间关系的中文化。其中对概念的中文化主要内容为对超级叙词表的中文化,具体有三部分:(1)从定量统计与定性研究的角度对超级叙词表进行子集的定制;(2)依照定制的超级叙词表子集构建中英医学对照词表,将中文医学概念映射到超级叙词表子集的英文概念中;(3)构建中英文转换接口,通过该接口将中英文对照词表中的中文概念信息添加到超级叙词表相应英文概念的属性中。这种给UMLS添加外壳的方法,通过实验结果表明是可行的。此外,本文还开发了一系列接口来实现对中文化后的UMLS的访问。语义网络中存在着概念与概念间的语义信息,为了更方便的利用这些知识,在UMLS中文概念及其关系的形式化表示部分,本文从概念与概念间关系的角度,进行了形式化表示。在形式化表示过程中,首先对网络本体描述语言OWL进行描述,然后利用本体构建工具Protégé及其相关插件,更加方便地完成了概念间语义关系的形式化表示,并保存为OWL文件供后续使用。