论文部分内容阅读
随着语义网时代的到来,以MARC格式为主的图书馆书目信息,因其分散、异构的数据形式而导致书目数据间无法形成互联,从而使得书目间存在的显性和隐形关系不能够被充分挖掘利用。关联数据的提出为解决上述问题提供了可能性。目前有关书目数据关联化的研究已经成为热点,国外在图书馆书目数据关联化方面的研究起步较早,理论相对成熟,并通过图书馆书目关联数据的发布,在实际应用中发现书目数据关联化存在的问题,其主要研究方向集中于通过改进书目数据编目规则和统一RDF词表两方面来简化书目数据关联关系构建的方式;而国内由于在书目数据关联化方面的研究起步较晚,目前主要从书目数据关联关系构建方面展开相关研究,但有关书目数据关联的构建大多是依据单一书目数据编目规则展开。本文主要希望探讨图书馆书目数据进行关联数据化及关联关系构建过程中的关键问题,尤其是重点阐述基于AACR和FRBR两种编目规则的书目数据进行关联构建的相似度计算的过程,以及书目数据关联关系自动构建的模型。文章首先对关联数据和书目数据的基本理论知识进行了梳理,并介绍了目前图书馆中常用的两种书目数据编目规则AACR和FRBR。第三章,笔者首先归纳了书目数据关联化的基本流程,并基于该流程探讨了图书馆书目数据关联化的创建过程,其次针对采用不同编目规则生成的书目记录如何结构化进行了分析,并详细论述了结构化数据的RDF化过程,对目前的一些RDF化工具进行了分析。第四章是本文的重点,笔者针对AACR和FRBR两种编目规则的分别应用不同的算法解决书目数据间关联关系构建的问题,考虑到关联关系的复杂性,文章从书目数据等同关联关系和非等同关联关系构建两个方面对相关算法展开论述。第五章,结合书目关联数据创建的相关算法提出了书目数据关联关系自动构建模型,并针对该模型中单一属性书目数据关联关系判定阈值的计算和多属性书目数据关联关系算法选取的问题,提出了采用分层抽样建立样本集,并利用计算机进行模拟计算的方法来解决。最后一部分是对本文的工作进行总结以及未来的研究方向。