论文部分内容阅读
名称规范的管理是图书馆机构规范控制的主要工作,在2003年我国内地及港澳台的多家机构联合建立了中文名称规范联合数据库,针对数据库资源的检索和查询,为用户提供了中文名称规范一站式查询系统。不同机构对名称规范档中数据资源的管理缺乏统一的整合方法,导致共享性较差;而且数据来源比较单一,主要为书目数据,降低了数据库名称资源的服务水平和信息质量。人物作为客观世界最为重要的实体,其相关的数据资源在中文名称规范档中冗余程度较高,同一人物的多条标目缺乏语义关联和信息整合。通过构建人物关联模型,完成人物实体的信息聚合,进而提高图书馆特有资源的数据质量具有重要意义。当前,国内外众多知识库均覆盖了人物、组织、会议等多类型的实体数据,各知识库对实体对象的构造方式、描述属性和语义关联都各有特点,且大多知识库都是基于开放和关联的。中文名称规范档的人物实体属性匮乏,存储格式难以关联和优化,信息聚合成为解决上述问题的有效途径,既能整合国内多家机构的重复条目,进而识别同一实体,又能与其他不同类型的数据库建立链接,形成属性丰富的人物关联模型,满足多元的知识服务和需求。本文基于中文名称规范档的人物信息聚合问题进行了理论探讨和实证研究,主要从以下几个方面来展开:(1)分析国内名称规范档多机构数据聚合存在的问题,针对数据库人物条目分散重复的情况,提出了基于无监督学习的人物聚类方法,对国内规范档人物实体数据进行初步整合。(2)在整合国内各机构规范标目的基础上,探索与虚拟国际规范档的人物匹配方式,分析世界各地相关机构对规范名称的贡献数量和匹配方法,设计国内外两库人物的实体链接实验,评估人物实体根据名称及属性匹配的有效程度,为实现国内规范档与国际接轨和数据共享建立基础。(3)分析维基数据中人物实体的属性框架,利用向量空间模型测量与中文名称规范联合数据库的人物相似度,根据人物关联模型进行信息聚合,按照语义网的数据规范,将其发布为关联数据,扩展规范名称资源的利用方式,克服异构障碍,进一步实现图书馆信息资源的共享和利用。