论文部分内容阅读
[摘要]数字图书馆时代资源整合是十分必要的,目前各个图书馆所使用的各类整合策略各有优缺点。但是基于语义的资源整合无疑是最终的发展趋势。传统图书馆领域的规范控制工作应该积极适应数字图书馆时代发展,构建基于语义资源整合的基础环境,从而在数字资源整合中继续发挥作用。
[关键词]数字图书馆;规范控制;资源整合
DOl:10.3969/i.issn.1008—0821.2010.06.008
[中图分类号]G253 [文献标识码]A [文章编号]1008—0821(2010)06—0031—02
1 数字图书馆时代资源整合的必要性
自20世纪90年代以来,随着网络的不断拓展,信息时代迅速来临,数字资源大量涌现。图书馆作为信息的收藏及传播者,更是受到了前所未有的冲击。第一,数字图书馆的收藏范围已经扩大。图书馆的收藏范围已经从单纯收藏印本文献,到收藏印本文献、缩微文献、非书文献、电子文献四大类型资源。其中电子资源又包括印本的数字化、原生电子资源、虚拟电子资源三种类型。第二,数字资源之间不兼容。目前随着数字化进程的不断发展,各种各样的数字资源纷纷涌现,但由于来自不同资源提供商的数字资源拥有独立的数据源、应用系统,因此尽管图书馆购买了大量数字资源,却无法有效结合在一起,用户需登录不同站点,使用不同的检索方法,浪费大量时间。再加之由于商业利益的存在,各资源提供商一般不愿意公开详细的数据结构和文件格式等,也不愿意兼容其他提供商的格式。这也就使得图书馆必须对这些数字资源进行必要的整合。第三,数字资源元数据格式多样化。图书馆信息资源的多样化,使得描述信息;源的元数据格式亦呈现多样化的趋势。目前国际上除了图书馆界较为熟悉的MARC和DC外,还有用于电子文本的TEl,用于可视资源的Ⅵ认Core,等多种各类资源的数据格式。因此,毫无疑问数字图书馆时代资源整合不仅是必须的,而且是迫切的。
2 数字图书馆时代资源整合策略及发展趋势
目前,实现信息资源整合方式有很多种,而且没有统一定义。一般分为4个层次,即基于导航的资源整合、基于OPAC的资源整合、基于异构统一平台的资源整合和基于语义的资源整合。从整合程度来讲这四种整合方式是逐渐深入的。
具体的讲,“导航式整合”是提供按字母和主题等的人口方式将数字资源的检索入口整合在一起,这样读者一次输入可以了解到数字图书馆的资源概貌,然后再按照个人喜好进入具体的数据库进行检索;“OPAC式整合”,就是在原有OPAC系统的基础上通过MARC中的856字段来反映资源的链接地址,使用户可直接链接到图书原文;“异构统一平台式整合”,就是借助中间层将检索式翻译成各个数据库的检索语句,同时调用各个数据库进行检索,能够使用户利用统一的检索方法同时检索多种异构的分布式数字资源。三者的共性是建立整合系统即在不改变现有信息系统的数据组织结构和检索方法的条件下,实现对异构的多数据源统一的访问。
而基于语义的资源整合,则需要建立整合系统,实际上就是对现有的数字信息资源重新组织、深度加工、二次开发和创造新知识的过程。具体的讲就是主要采用了本体的技术,借助XML语法,以元数据为基础构建知识本体,通过RDF(Resouoe DescriPtion Framework)/RDFs(RDFSchema)来实现元数据描述和交换,这样能够最大可能地解决一词多义和同义词的问题,减少漏检和错检,同时发现资源之间潜在的相互联系,能够实现资源更大范围的整合。
数字图书馆只有实现了基于语义的资源整合,才能在此基础上去更好的服务用户。
3 规范控制工作与数字图书馆时代的资源整合
在上述的资源整合策略当中,基于语义的资源整合无疑是数字资源整合的最高境界。那是不是在进行数字资源整合时,传统图书馆使用的目录组织方法全都失效了呢?其实如果我们能够透过现象去剖析数字时代资源整合的本质,我们不难发现,无论上述的哪一种资源整合方式,其立足点都是我们传统的图书馆学最擅长的武功——目录学,只是现在变成了数字目录学罢了。其实质就是借助计算机超强的运算速度,以目录学的思维,即利用有序的较少的资源管理无序的海量的信息资源。因此进入数字图书馆时代,并非所有的规则都要重新建立,传统图书馆时代的很多好的理念仍然是可以借鉴和传承,比如说规范控制工作在数字图书馆来临的时候,为其发展提供了更广阔的空间。
3.1 规范控制工作能够延伸到数字图书馆时代的原因
无论传统图书馆还是数字图书馆,主要“检索点”受控都是有必要的。规范控制工作是伴随着书目产生、发展的。书目的作用起初仅作为图书清册,留于客观揭示,并不着重标目规范控制去实现目录的集中职能。由于文献数量日趋增加,著者同人异名、同书异名,或同名异人、同名异书的情况逐渐增多,为了辨明各种名称,提高书目检索效率,编目人员有意识地按照一定的序列排列书目卡片,并加以各种注释,这就是规范控制最初的萌芽。众所周知,书目数据描述的是文献,而规范数据描述的则是书目款目中的标目。因此标目的选择和形式的确定,无疑是非常重要的。进入数字图书馆时代,只是“标目”的概念就逐渐转化为“检索点”,MARC格式变成了形式上和内容上很灵活的元数据,但是有一点没有变,无论什么样的数据格式都是用来检索的,尤其信息资源的数量更加庞大,必然使著者同人异名、同书异名,或同名异人、同名异书的情况逐渐增多。因此为了降低信息资源的误检率和漏检率,提高信息资源的查准率和查全率,引入规范控制更是十分必要。
3.2 规范控制相关标准正在积极适应数字图书馆时代发展
图书馆行业外部正在发生着日新月异的变化,导致其自身的编目规则和标准也在不断变化,1996年3月,美国联机编目中心(0CLC)召开了21世纪的规范控制研讨会,对数字图书馆的规范控制以及未来的规范控制的发展趋势进行了探讨。之后不久,1999年4月,IFLA又成立一个新的工作组,即“规范记录的功能要求和编号”(Functional Requirements and Numbering 0f Authority Records,简称FRA-NAll)工作组。该工作组于2007年4月提交了《规范数据的功能需求》(FRAD)的报告,该概念模型主要是涉及名称规范的内容。
因此,不难看出规范控制工作的相关操作标准正在不断的更新进程,一定会越来越适应数字时代的要求。
3.3 规范控制在数字时代资源整合中的应用模式
3.3.1 结合数字资源特性,扩大规范控制范围
虽然数字图书馆与传统图书馆时代规范控制的基本含义是一致的,但是毕竟控制的对象相差迥异,因此控制的 元素肯定会有所区别。比如在传统图书馆获得文献主要是依据对应本地馆藏位置的索取号,而这种索取号在本地馆藏一般是惟一的,因此根本不需要进行规范控制,而在数字图书馆中对于远程检索电子资源来讲,必须通过一个准确的某类标识符来保证准确获取资源。目前,这类标识符通常是统一资源定位器(URL),它嵌于书目记录中。URL能成功地作为一种检索实体的方法主要在于它在定位信息上的准确性,但它最大的缺点是不稳定。相对数字资源来讲,索取标识符是一项极为重要的检索点,因此未来也许会把数字资源的索取符号纳入到规范控制的范围来。类似这类的元素,应该在具体的工作中,逐渐发现并积累,并应尽快的反映到编目规则中。
3.3.2 细化规范元素属性,构建基于语义的资源整合的基础
基于语义的资源整合,最重要的一个环节就是领域本体的构建。而规范控制的对象正是构建本体的基本要素之一,而且规范数据可以是一次建立,多次输出,节约构建本体库的成本。以个人名称规范为例,构建大多数领域本体时都离不开“个人”的要素,而名称规范就是用来描述“个人”属性的。以2007年4月出台的《规范数据的功能需求》(FRAD)中定义的“个人”实体的属性为例,其属性包括个人的日期、个人的称呼、个人的其它名称、性别、出生地、死亡地、居住地、所属单位、传记/历史等。编目员通过上述的属性描述形成名称规范数据,然后可以通过计算机软件,转化成构建本体库所需要的形式化描述语言,以作为构建语义检索模式的基础,而且规范控制对象的属性越详细越有利于提高信息资源检索的正确性。
3.3.3 强化规范元素关系,发现数字资源之间的相互联系
在传统图书馆领域,规范工作重视的是检索点形式,以便进行区分标目,进而在区分的基础上进行集中相关文献。但是在数字图书馆时代,规范控制工作的重心则是揭示语义检索模型中本体间的关系。例如与个人有关的相关参照关系,即个人一个人的关系,可能包括笔名关系、归属关系、合作关系、兄弟关系、父母/儿女关系;个人与团体、个人与家族的成员关系;以及与个人有关的单纯参照关系:实名关系、笔名关系、俗名关系、教名关系、职务名称关系、旧名称关系、新名称关系、交替语言形式关系、其它变异名称关系等等。通过在规范记录里将这些复杂的关系细化,并通过符号的形式表达清楚,无疑是有利于在基于语义网检索的时候,提高信息资源查全率。
总之,数字图书馆时代的来临,并不是将传统图书馆的相关技术全部摒弃,而是应该积极的开拓思路,抓住时代带来的机遇,将类似于规范控制这些既有的经验和技术继续传承并发扬光大。
参考文献
[1]赵悦。富平,数字资源与传统文献元数据整合[J],国家图书馆学刊,2(J07,(2):63-65。
[2]富平,从文献编目到资源整合[J],图书情报论坛,2006,(1):3—5。
[3]韩裁,樊志伟,李健,数字图书馆的信息资源发现与组织[J],情报资料工作,2006,(5):65—67。
[4]武永娜,规范控制范围的扩展——从书目记录的规范控制到元数据的规范控制[J],新世纪图书馆,2003,(5):20—22。
[5]黄晓斌。夏明春,数字资源整合方式的比较与选择[J],情报科学,2005,23(5):690—695。
[6]林明,规范控制的发展历程[J],图书馆工作与研究,2001,(5):2—6。
[7]邓三鸿,金莹,秦嘉杭,基于知识管理的数字资源垫合策略[J],情报科学,2006,24(10):1489—1493。
[关键词]数字图书馆;规范控制;资源整合
DOl:10.3969/i.issn.1008—0821.2010.06.008
[中图分类号]G253 [文献标识码]A [文章编号]1008—0821(2010)06—0031—02
1 数字图书馆时代资源整合的必要性
自20世纪90年代以来,随着网络的不断拓展,信息时代迅速来临,数字资源大量涌现。图书馆作为信息的收藏及传播者,更是受到了前所未有的冲击。第一,数字图书馆的收藏范围已经扩大。图书馆的收藏范围已经从单纯收藏印本文献,到收藏印本文献、缩微文献、非书文献、电子文献四大类型资源。其中电子资源又包括印本的数字化、原生电子资源、虚拟电子资源三种类型。第二,数字资源之间不兼容。目前随着数字化进程的不断发展,各种各样的数字资源纷纷涌现,但由于来自不同资源提供商的数字资源拥有独立的数据源、应用系统,因此尽管图书馆购买了大量数字资源,却无法有效结合在一起,用户需登录不同站点,使用不同的检索方法,浪费大量时间。再加之由于商业利益的存在,各资源提供商一般不愿意公开详细的数据结构和文件格式等,也不愿意兼容其他提供商的格式。这也就使得图书馆必须对这些数字资源进行必要的整合。第三,数字资源元数据格式多样化。图书馆信息资源的多样化,使得描述信息;源的元数据格式亦呈现多样化的趋势。目前国际上除了图书馆界较为熟悉的MARC和DC外,还有用于电子文本的TEl,用于可视资源的Ⅵ认Core,等多种各类资源的数据格式。因此,毫无疑问数字图书馆时代资源整合不仅是必须的,而且是迫切的。
2 数字图书馆时代资源整合策略及发展趋势
目前,实现信息资源整合方式有很多种,而且没有统一定义。一般分为4个层次,即基于导航的资源整合、基于OPAC的资源整合、基于异构统一平台的资源整合和基于语义的资源整合。从整合程度来讲这四种整合方式是逐渐深入的。
具体的讲,“导航式整合”是提供按字母和主题等的人口方式将数字资源的检索入口整合在一起,这样读者一次输入可以了解到数字图书馆的资源概貌,然后再按照个人喜好进入具体的数据库进行检索;“OPAC式整合”,就是在原有OPAC系统的基础上通过MARC中的856字段来反映资源的链接地址,使用户可直接链接到图书原文;“异构统一平台式整合”,就是借助中间层将检索式翻译成各个数据库的检索语句,同时调用各个数据库进行检索,能够使用户利用统一的检索方法同时检索多种异构的分布式数字资源。三者的共性是建立整合系统即在不改变现有信息系统的数据组织结构和检索方法的条件下,实现对异构的多数据源统一的访问。
而基于语义的资源整合,则需要建立整合系统,实际上就是对现有的数字信息资源重新组织、深度加工、二次开发和创造新知识的过程。具体的讲就是主要采用了本体的技术,借助XML语法,以元数据为基础构建知识本体,通过RDF(Resouoe DescriPtion Framework)/RDFs(RDFSchema)来实现元数据描述和交换,这样能够最大可能地解决一词多义和同义词的问题,减少漏检和错检,同时发现资源之间潜在的相互联系,能够实现资源更大范围的整合。
数字图书馆只有实现了基于语义的资源整合,才能在此基础上去更好的服务用户。
3 规范控制工作与数字图书馆时代的资源整合
在上述的资源整合策略当中,基于语义的资源整合无疑是数字资源整合的最高境界。那是不是在进行数字资源整合时,传统图书馆使用的目录组织方法全都失效了呢?其实如果我们能够透过现象去剖析数字时代资源整合的本质,我们不难发现,无论上述的哪一种资源整合方式,其立足点都是我们传统的图书馆学最擅长的武功——目录学,只是现在变成了数字目录学罢了。其实质就是借助计算机超强的运算速度,以目录学的思维,即利用有序的较少的资源管理无序的海量的信息资源。因此进入数字图书馆时代,并非所有的规则都要重新建立,传统图书馆时代的很多好的理念仍然是可以借鉴和传承,比如说规范控制工作在数字图书馆来临的时候,为其发展提供了更广阔的空间。
3.1 规范控制工作能够延伸到数字图书馆时代的原因
无论传统图书馆还是数字图书馆,主要“检索点”受控都是有必要的。规范控制工作是伴随着书目产生、发展的。书目的作用起初仅作为图书清册,留于客观揭示,并不着重标目规范控制去实现目录的集中职能。由于文献数量日趋增加,著者同人异名、同书异名,或同名异人、同名异书的情况逐渐增多,为了辨明各种名称,提高书目检索效率,编目人员有意识地按照一定的序列排列书目卡片,并加以各种注释,这就是规范控制最初的萌芽。众所周知,书目数据描述的是文献,而规范数据描述的则是书目款目中的标目。因此标目的选择和形式的确定,无疑是非常重要的。进入数字图书馆时代,只是“标目”的概念就逐渐转化为“检索点”,MARC格式变成了形式上和内容上很灵活的元数据,但是有一点没有变,无论什么样的数据格式都是用来检索的,尤其信息资源的数量更加庞大,必然使著者同人异名、同书异名,或同名异人、同名异书的情况逐渐增多。因此为了降低信息资源的误检率和漏检率,提高信息资源的查准率和查全率,引入规范控制更是十分必要。
3.2 规范控制相关标准正在积极适应数字图书馆时代发展
图书馆行业外部正在发生着日新月异的变化,导致其自身的编目规则和标准也在不断变化,1996年3月,美国联机编目中心(0CLC)召开了21世纪的规范控制研讨会,对数字图书馆的规范控制以及未来的规范控制的发展趋势进行了探讨。之后不久,1999年4月,IFLA又成立一个新的工作组,即“规范记录的功能要求和编号”(Functional Requirements and Numbering 0f Authority Records,简称FRA-NAll)工作组。该工作组于2007年4月提交了《规范数据的功能需求》(FRAD)的报告,该概念模型主要是涉及名称规范的内容。
因此,不难看出规范控制工作的相关操作标准正在不断的更新进程,一定会越来越适应数字时代的要求。
3.3 规范控制在数字时代资源整合中的应用模式
3.3.1 结合数字资源特性,扩大规范控制范围
虽然数字图书馆与传统图书馆时代规范控制的基本含义是一致的,但是毕竟控制的对象相差迥异,因此控制的 元素肯定会有所区别。比如在传统图书馆获得文献主要是依据对应本地馆藏位置的索取号,而这种索取号在本地馆藏一般是惟一的,因此根本不需要进行规范控制,而在数字图书馆中对于远程检索电子资源来讲,必须通过一个准确的某类标识符来保证准确获取资源。目前,这类标识符通常是统一资源定位器(URL),它嵌于书目记录中。URL能成功地作为一种检索实体的方法主要在于它在定位信息上的准确性,但它最大的缺点是不稳定。相对数字资源来讲,索取标识符是一项极为重要的检索点,因此未来也许会把数字资源的索取符号纳入到规范控制的范围来。类似这类的元素,应该在具体的工作中,逐渐发现并积累,并应尽快的反映到编目规则中。
3.3.2 细化规范元素属性,构建基于语义的资源整合的基础
基于语义的资源整合,最重要的一个环节就是领域本体的构建。而规范控制的对象正是构建本体的基本要素之一,而且规范数据可以是一次建立,多次输出,节约构建本体库的成本。以个人名称规范为例,构建大多数领域本体时都离不开“个人”的要素,而名称规范就是用来描述“个人”属性的。以2007年4月出台的《规范数据的功能需求》(FRAD)中定义的“个人”实体的属性为例,其属性包括个人的日期、个人的称呼、个人的其它名称、性别、出生地、死亡地、居住地、所属单位、传记/历史等。编目员通过上述的属性描述形成名称规范数据,然后可以通过计算机软件,转化成构建本体库所需要的形式化描述语言,以作为构建语义检索模式的基础,而且规范控制对象的属性越详细越有利于提高信息资源检索的正确性。
3.3.3 强化规范元素关系,发现数字资源之间的相互联系
在传统图书馆领域,规范工作重视的是检索点形式,以便进行区分标目,进而在区分的基础上进行集中相关文献。但是在数字图书馆时代,规范控制工作的重心则是揭示语义检索模型中本体间的关系。例如与个人有关的相关参照关系,即个人一个人的关系,可能包括笔名关系、归属关系、合作关系、兄弟关系、父母/儿女关系;个人与团体、个人与家族的成员关系;以及与个人有关的单纯参照关系:实名关系、笔名关系、俗名关系、教名关系、职务名称关系、旧名称关系、新名称关系、交替语言形式关系、其它变异名称关系等等。通过在规范记录里将这些复杂的关系细化,并通过符号的形式表达清楚,无疑是有利于在基于语义网检索的时候,提高信息资源查全率。
总之,数字图书馆时代的来临,并不是将传统图书馆的相关技术全部摒弃,而是应该积极的开拓思路,抓住时代带来的机遇,将类似于规范控制这些既有的经验和技术继续传承并发扬光大。
参考文献
[1]赵悦。富平,数字资源与传统文献元数据整合[J],国家图书馆学刊,2(J07,(2):63-65。
[2]富平,从文献编目到资源整合[J],图书情报论坛,2006,(1):3—5。
[3]韩裁,樊志伟,李健,数字图书馆的信息资源发现与组织[J],情报资料工作,2006,(5):65—67。
[4]武永娜,规范控制范围的扩展——从书目记录的规范控制到元数据的规范控制[J],新世纪图书馆,2003,(5):20—22。
[5]黄晓斌。夏明春,数字资源整合方式的比较与选择[J],情报科学,2005,23(5):690—695。
[6]林明,规范控制的发展历程[J],图书馆工作与研究,2001,(5):2—6。
[7]邓三鸿,金莹,秦嘉杭,基于知识管理的数字资源垫合策略[J],情报科学,2006,24(10):1489—1493。