论文部分内容阅读
由于目前存在多种标题表、叙词表、分类表和网络分类法,同一主题概念在不同网站和系统之中采用不同的主题词或分类号表达,网络信息检索变得十分困难。用户最理想的方式是用一个提问式可以获取多个数据库中的检索结果。要实现这一方法,最主要的就是实现各种情报检索语言之间的互操作。近年来,国内外学者一直在探讨检索语言的互操作问题,提出了多种解决方法,主要包括:自动匹配转换;中介词典;集成词表;映射;翻译等,并在此基础上完成了很多互操作的项目,为用户的信息检索带来了很大的方便。
本文拟通过对检索语言互操作技术的研究,借鉴国内外实现不同词表之间互操作的经验和方法,建立一个以《中国分类主题词表》为核心的兼容体系,即建立一个可以不断扩充的集成词库。这个集成词库包括:《中图法》与国内外分类法的互操作,《汉表》与专业叙词表的互操作以及受控语言与自然语言之间的互操作。拟以教育类为试验对象,选用多部中外叙词表、分类表构建词库。数据来源包括《中国分类主题词表》、《中国科学院图书馆图书分类法》(简称《科图法》)、《杜威十进分类法》(DDC)等分类表的教育大类;《教育主题词表》、《社会科学检索词表》等主题词表及下载、抽取的关键词和关键词串。
本文主要研究内容包括:不同词表到《中分表》的互操作,包括各分类法与《中图法》、各主题词表与《汉表》以及受控语言与自然语言的互操作三部分。对不同分类法的互操作拟采用同现映射和类目相似度计算等方法,并针对各种算法的不足提出了新的修改意见;对不同主题词表之间的互操作,拟采用基于结构的自动匹配、基于同义词表的映射等方法;另外,还研究了自然语言到受控语言的转换,为用户提供自然语言入口,方便用户检索、查找。通过上述映射完成词库的构建,本丈采用兼容矩阵的结构形式来存储词库,分为两种形式:字顺兼容矩阵和分类兼容矩阵。为了便于浏览和使用词库数据,采用单机模式、XML文档格式及本体对词库兼容数据进行可视化显示,进而为用户提供各种服务。
利用Visua1 Basic语言、Access2000、XMLspy等工具开发设计了教育词库的构建和应用系统。