论文部分内容阅读
互联网与大数据环境下,面对广泛异构数据的层出不穷,受控词表互操作作为语义扩展、跨库检索、数据共享的基础,成为实现一站式信息检索的重要途径。受控词表间的互操作属语义层面的互操作,基于特定互操作目标,采用适当方法与规范流程,通过概念与概念关系在具有语义共性的词表之间建立匹配,以实现不同词表间的语义关联。目前,国内外已形成较为完善的互操作方法与模型,并实现跨/多语言、跨/多类型、跨/多领域等异构词表间的互操作。互操作规范方面也有国际编制标准(ISO 25964)、美国编制标准(ANSI/NISO Z39.19-2005)、英国编制标准(BS 8723-2007)等标准对方法与模型的选择、过程的实施、容易出现的问题等互操作相关内容进行规范指导,但互操作问题及互操作质量方面的研究却很少。受控词表互操作质量分析是互操作构建中必不可少的环节。互操作质量分析有助于发现互操作过程中出现的错误,评价互操作结果优劣,改进互操作方法,减少互操作过程中出现的信息缺失等问题,使其更好地应用于检索中提高检索效率。本文系统地从三个方面对互操作质量进行分析,一是互操作质量影响因素分析,从互操作基本方法与词表异构两个角度全面剖析在互操作构建过程中对其质量产生影响的内外部因素;二是互操作结果质量的定量分析,通过定量方法对依据互操作过程构建的实例结果统计分析,从整体角度探析具体结果的质量;三是互操作检索质量分析,通过实验对比分析以互操作结果为后控词表与以单一词表为后控词表的检索效果,从实际应用角度检验互操作的效用。实验选取UMLS超级叙词表与MeSH词表进行分析。笔者经过分析得出,基于不同互操作方法与模型、概念映射类型、映射方向、映射数量所构建的互操作结果质量存在差别。并且结构层面、语法层面、语义层面的词表异构会影响对词表概念及概念关系的理解,间接决定了互操作过程中各个阶段的方法选择。经过互操作结果质量分析,从全局角度感知了具体映射的分布,直观展现了互操作结果所能达到的语义程度。而互操作检索实验结果表明基于术语映射的扩展检索效果并不一定优于基于单个词表的检索效果。