论文部分内容阅读
随着信息的大量涌现,信息用户对检索的要求越来越高,期望“一站式”浏览和下载所需各类文献信息资源。分类词表作为信息组织工具在信息资源整合、存取过程中担任着非常重要的角色。各国学者均注重对分类法的开发和研究,编制了各具特色的分类词表。正是这些语言也给文献信息数据库带来难以跨越的鸿沟。不同国家、地区、语言的数据库使用不同的分类法组织其信息资源,多数具有不同的检索界面,需要用户掌握不同的检索策略,造成用户检索难、信息资源使用率低、共享性差等诸多问题。分类法互操作是解决“一站式”获取需求的重要手段。《杜威十进分类法》(简称DDC)是国际上应用最广的分类法,是实现国内分类法与世界接轨的最优选择。当前的研究成果集中在DDC与《中国图书馆分类法》互操作的理论层面,由于匹配准确率低、研究覆盖面小、版权问题等,没有实现二者的互操作。在此背景下,需要一个新的方法来解决这些难题,语义相似度计算、共现映射、交叉浏览等方法相继被应用于类表自动匹配过程中。本文首先对国内外情报检索语言互操作研究现状进行了简要概述,对目前分类表互操作的类型、实现方法、语义相似度计算的类别和特点进行了详细的研究分析。对DDC与CLC理学类目进行人工映射匹配,从编制原则、类表结构、类目层次、语言等方面对两者之间的异同进行比较,总结分析出类目映射匹配的依据:类名、注释、主题词、语义关系、书目记录等因素在匹配时所应用的情况。旨在将人工映射的数据应用于计算机自动匹配系统设计中。采用基于特征词计算各因素的相似度实现类目部分匹配,进一步结合书目记录共现原理完成类目匹配,以最终提高DDC和《中图法》自动映射的完整性和准确性,克服现有计算机间接映射,单纯依靠类名匹配方法的局限性。本文依据这一方法对实验数据进行了验证,给出特征词相似度计算时应设定的优先度和权重值。