论文部分内容阅读
【摘要】探讨CNMARC是图书馆学研究的重点与热点之一,文章对CNMARC字段随着修订而不断增设情况进行调查、分析,对某些相关观点进行商榷,并提出在网络环境下统筹考虑进行删、减、改、并,达到精简字段,易于操作,方便利用的目的。
引言
对文献资源的收集、组织管理、开发与提供利用是图书馆的特长技能,古今中外概莫能外,也是新兴的社会其他行业目前仍然无法完全取代的。不少图书馆往往把提供文献与参考咨询等直接面向用户的工作比作“前台”,而注重这方面服务的优劣是图书馆形象。那么,如果忽视对文献资源的科学收集与组织管理等扎扎实实的“幕后”工作支撑,势必造成“前台”的巧妇难为无米之炊,只能想方设法推挡、敷衍。笔者检索维普“中文科技期刊数据库”的情况证实了这一点。
根据2000-2004年发表的“编目”类论文看(见图1):数量持续增长,5年间就达到3.4倍,反映图书馆界对本行业特长技能的关注;论文内容相当大部分是涉及CNMARC问题,反映出这方面依然是研究的热点之一;尤其是已有个别探讨简化机读目录著录方面问题的文章出现,是值得注意的倾向。但就笔者所见,探讨简化机读目录著录的文章中,也存在某些值得商榷的问题,愿抛砖引玉,作如下分析。
自上世纪90年代初我国开始应用CNMARC以来,在国内迅速普及,已经成为图书馆书目数据的主流形式之一。参考国际上各种MARC格式的发展,结合中文文献实际,CNMARC不断修订,从1990年的首次、1996年作为行业标准和2004年最新修订的3次情况看:
(1)名称基本稳定。除了“著录信息块”在初版称为“著录块”外,各功能块的名称没有变更。
(2)字段增加的总趋势。1990年版最初设置125个字段;1996年版成为157个字段,增加32个字段,增幅25%;2004年版达到184个字段,又增加27个字段(“前言”统计有误,660字段初版就设置),较初版增幅47%。
(3)某些功能块相对稳定。“责任者块”、“国际使用块”和“国内使用块”在1990年版和1996年版时处于稳定状态,而“著录信息块”则在1996年版和2004年版处于稳定状态。
(4)个别调整。原设的“国内使用块”仅有1个字段,2004年版不再作统一规定,实际上这个功能块还是存在。取消了原设的“093 专利号(待定)”。686字段原为“其它分类号”,现专用为“外国其他分类法分类号”,同时增设对应的“696 国内其他分类法分类号”。
辩证看待CNMARC字段
由于CNMARC仅设置的字段就有184个,还有大量的子字段,而使人望而生畏,需要改革,这固然有一定道理。但某些文章提出简化计算机编目的具体看法值得商榷:
(1)用其他元数据取代。相当一段时间,某些人将被热炒的DC(都柏林核心元素数据集)误称为“元数据”,而实际上它只是元数据之一。正如“MARC”原意为美国国会图书馆始于1964年的关于机器可读目录的研制计划(Machine Readable Catalogue Project),现一般被作为机读目录格式的简称,它也是元数据之一。CNMARC是MARC系列中更适宜中国图书馆以及相关机构使用的机读目录格式,正由于DC实际上无法取代它的优势,并且二者各有千秋,才使得人们更加理智地认为兼容是更妥当的方式,而不能随意采取釜底抽薪——取代做法。
(2)著录信息的详简级次。对著录采取不同的详简级次的作法并非新观点,1983年发布的国家标准《文献著录总则》中就有所区别,国外的类似提法也都有各自具体情况。同时,我们应当清醒地认识到网络环境下文献资源的共建共享现实与未来。文献检索的“查全”、“查准”都与著录信息的详简程度密切相关,我们不难在网上看到上世纪制作的一些简单著录信息的数据已经影响到今天的检索、判断,不得不要对其进行修补、维护。尽管著录信息的多少并不等于书目数据质量的优劣,但过于简单的著录信息影响CNMARC功能发挥则是毫无疑义。
(3)只是存取方式先进而已。机读目录与传统目录相比,在基本著录项目上并没有多大变化,只是存取方式先进而已的认识是片面而肤浅的。一方面,描述、检索、统计是书目的基本功能。比起书本目录的固化,卡片目录从理论上说,可以根据不同目的而灵活、机动地进行组织与组合,但往往限于人、财、物、时间、空间等而难以实现一些功能或不得不降低实现一些功能的程度。机读目录则可以大大释放出卡片目录被抑制的、便于图书馆组织管理与用户利用的基本功能,有作者较详尽地论述了机读目录的原理与功能,不复赘述。另一方面,MARC是在卡片目录基础上的发展,并且还有相当一段共存以致于后者逐渐隐退。为避免给用户造成认识、使用困难,保持基于长期总结、固化的一些著录信息的稳定性是必要的。
(4)只著录有“实际检索意义的字段”。有人认为著录索书号、第二责任者、丛书名等信息意义不大,异议者则认为“这种观点过于简单化……会影响读者判断的准确性,降低其检索效果”。索书号是组织管理图书的重要代码,也是读者最终索取图书的重要依据;利用索书号中的分类号,还便于扩大或缩小查找相关类目图书。据调查国家图书馆,某些世界名著的不同版本就有数百种,而第二责任者则是鉴别与查准的要素之一。
(5)目录随着开架借阅处于次要地位。开架借阅在某种程度上确实使书目数据处于辅助作用,但图书馆员对图书的组织管理依然主要依赖于书目数据,网络环境下的远程检索更是离不开书目数据。《中国植物志》80卷126分册,如果省略了分册书名(按照编目规则只著录书名页上的信息是可以的),读者如何识别相关植物的“门”、“纲”、“目”、“科”、“属”等情况?
(6)期刊的著录比图书简单。期刊数据库的迅速发展,使得图书馆亦可不再重复揭示期刊中包含的各篇文献信息,但是期刊的名称、内容、刊期等动态变化则是绝对的,故CNMARC中为其设置的字段甚至比图书的还要多。
(7)字段多。尽管设置有184个字段,有的可以重复使用;但是它们是立足于处置各种类型文献的不同情况。如果按照不同文献类型使用的字段看,相关字段的数量将大大缩小,常用字段更是屈指可数(通常不超过20个字段)。
对CNMARC字段的改革
CNMARC字段设置的不断增加,既有与时俱进的合理性,也存在一些日益繁琐、不利操作的现象,需要改革。
(1)归并相似字段。如果说CNMARC有些字段是相似的[例如“010国际标准书号(ISBN)”、“011国际标准连续出版物号”、“040 CODEN(连续出版物)”与“091”],但由于它们是处理不同历史时期或形式的标准代码,尚有分别存在的道理。那么,“014 论文标识号”与“073 国际论文号”之间,或它们与010、011之间有所重复或交叉,宜采取归并措施以简化字段。尤其是结构复杂的代码,不仅实用价值不大,而且容易出差错。再如,“410 丛编”、“411 附属丛编”与“461 总集”、“462 分集”是2对反映文献层次关系的相似字段,也是容易混淆的。
(2)减少重复字段。“资料特定细节项”既不用于检索,也不用于统计,只是承当用于识别、鉴别的描述作用,设置一个公共字段足矣(如同“题名与责任说明”通用200字段)。而CNMARC在初版207字段后,又增设206、208、230字段,是否必要?值得商榷。
(3)减少说明性字段。“附注块”并不用于检索或统计,主要是用于著录一些需要说明的情况(并非必备),设置1个(在初版就明确300字段可以代替301至315任何字段)或少数几个字段就可以处置相关信息。但是CNMARC也是一再细化、增设字段,目前达到35个字段。可否将值得说明的情况集中,字段较大规模压缩?
(4)减少已被涵盖或交叉性字段。“主题分析块”所初设的字段已经比较全面地兼顾语词、代码方面反映文献的主题。尽管其中“610 非控主题词”比较稳定,但笔者还是建议将其改称为更加明确的“关键词”;因为与其对应的606字段名称很不稳定(初版称“普通主题”,1996年版为“学科名称主题”,最新版又改名为“论题名称主题”),倒不如称为“叙词”更明确。尤其是“616 商标主题”,往往已经在文献的某字段中反映过了,没必要在此重复。
(5)合并某些非统计性的检索字段。CNMARC固然有比卡片目录更多的检索途径,即使将同一检索途径中的内容梳理、细分成不同字段,也是殊途同归。以题名为例,有正题名、分题名、交替题名、合订题名、丛编题名、统一题名、封面题名、书脊题名……,都是通过“题名”这一检索窗口而不是细分的对应窗口实现的。(6)减少或压缩与检索性字段重复的字段或子字段。著录信息重复理应精简,但要具体分析、对待。一种情况是鉴别与检索:如200字段中$f和$g与7—字段都是著录责任者信息。笔者认为在CNMARC中,7—字段可以突破“著录不过三”的卡片目录著录常规(这正是CNMARC优势所在),扩展检索;200字段中$f和$g则可以只取“排名第一者”(不宜取消),用于鉴别。另一情况是一字段的功能可以覆盖另一字段:如225与410字段都用于丛编,前者只是描述性显示,而后者既可作为检索点,又可生成附注。
结语
据统计,2003年我国正式出版图书190 391种,其中新版图书110 812种[11],使得文献编目的工作量不断增大。优质、高效地编制书目数据是图书馆员的责任,但这项工作涉及到多方面,并不是某些人认为的“外包”(因为总有本馆特定的文献需要编目员处置)、“改换元数据”、“只著录有实际检索意义的字段”等那样简单。
简化编目固然是为了提高编目工作效率,但值得注意的是不能降低CNMARC的描述、检索、统计功能,影响用户使用。这就需要统筹考虑进行删、减、改、并,达到精简字段,易于操作,方便利用的目的。
引言
对文献资源的收集、组织管理、开发与提供利用是图书馆的特长技能,古今中外概莫能外,也是新兴的社会其他行业目前仍然无法完全取代的。不少图书馆往往把提供文献与参考咨询等直接面向用户的工作比作“前台”,而注重这方面服务的优劣是图书馆形象。那么,如果忽视对文献资源的科学收集与组织管理等扎扎实实的“幕后”工作支撑,势必造成“前台”的巧妇难为无米之炊,只能想方设法推挡、敷衍。笔者检索维普“中文科技期刊数据库”的情况证实了这一点。
根据2000-2004年发表的“编目”类论文看(见图1):数量持续增长,5年间就达到3.4倍,反映图书馆界对本行业特长技能的关注;论文内容相当大部分是涉及CNMARC问题,反映出这方面依然是研究的热点之一;尤其是已有个别探讨简化机读目录著录方面问题的文章出现,是值得注意的倾向。但就笔者所见,探讨简化机读目录著录的文章中,也存在某些值得商榷的问题,愿抛砖引玉,作如下分析。
自上世纪90年代初我国开始应用CNMARC以来,在国内迅速普及,已经成为图书馆书目数据的主流形式之一。参考国际上各种MARC格式的发展,结合中文文献实际,CNMARC不断修订,从1990年的首次、1996年作为行业标准和2004年最新修订的3次情况看:
(1)名称基本稳定。除了“著录信息块”在初版称为“著录块”外,各功能块的名称没有变更。
(2)字段增加的总趋势。1990年版最初设置125个字段;1996年版成为157个字段,增加32个字段,增幅25%;2004年版达到184个字段,又增加27个字段(“前言”统计有误,660字段初版就设置),较初版增幅47%。
(3)某些功能块相对稳定。“责任者块”、“国际使用块”和“国内使用块”在1990年版和1996年版时处于稳定状态,而“著录信息块”则在1996年版和2004年版处于稳定状态。
(4)个别调整。原设的“国内使用块”仅有1个字段,2004年版不再作统一规定,实际上这个功能块还是存在。取消了原设的“093 专利号(待定)”。686字段原为“其它分类号”,现专用为“外国其他分类法分类号”,同时增设对应的“696 国内其他分类法分类号”。
辩证看待CNMARC字段
由于CNMARC仅设置的字段就有184个,还有大量的子字段,而使人望而生畏,需要改革,这固然有一定道理。但某些文章提出简化计算机编目的具体看法值得商榷:
(1)用其他元数据取代。相当一段时间,某些人将被热炒的DC(都柏林核心元素数据集)误称为“元数据”,而实际上它只是元数据之一。正如“MARC”原意为美国国会图书馆始于1964年的关于机器可读目录的研制计划(Machine Readable Catalogue Project),现一般被作为机读目录格式的简称,它也是元数据之一。CNMARC是MARC系列中更适宜中国图书馆以及相关机构使用的机读目录格式,正由于DC实际上无法取代它的优势,并且二者各有千秋,才使得人们更加理智地认为兼容是更妥当的方式,而不能随意采取釜底抽薪——取代做法。
(2)著录信息的详简级次。对著录采取不同的详简级次的作法并非新观点,1983年发布的国家标准《文献著录总则》中就有所区别,国外的类似提法也都有各自具体情况。同时,我们应当清醒地认识到网络环境下文献资源的共建共享现实与未来。文献检索的“查全”、“查准”都与著录信息的详简程度密切相关,我们不难在网上看到上世纪制作的一些简单著录信息的数据已经影响到今天的检索、判断,不得不要对其进行修补、维护。尽管著录信息的多少并不等于书目数据质量的优劣,但过于简单的著录信息影响CNMARC功能发挥则是毫无疑义。
(3)只是存取方式先进而已。机读目录与传统目录相比,在基本著录项目上并没有多大变化,只是存取方式先进而已的认识是片面而肤浅的。一方面,描述、检索、统计是书目的基本功能。比起书本目录的固化,卡片目录从理论上说,可以根据不同目的而灵活、机动地进行组织与组合,但往往限于人、财、物、时间、空间等而难以实现一些功能或不得不降低实现一些功能的程度。机读目录则可以大大释放出卡片目录被抑制的、便于图书馆组织管理与用户利用的基本功能,有作者较详尽地论述了机读目录的原理与功能,不复赘述。另一方面,MARC是在卡片目录基础上的发展,并且还有相当一段共存以致于后者逐渐隐退。为避免给用户造成认识、使用困难,保持基于长期总结、固化的一些著录信息的稳定性是必要的。
(4)只著录有“实际检索意义的字段”。有人认为著录索书号、第二责任者、丛书名等信息意义不大,异议者则认为“这种观点过于简单化……会影响读者判断的准确性,降低其检索效果”。索书号是组织管理图书的重要代码,也是读者最终索取图书的重要依据;利用索书号中的分类号,还便于扩大或缩小查找相关类目图书。据调查国家图书馆,某些世界名著的不同版本就有数百种,而第二责任者则是鉴别与查准的要素之一。
(5)目录随着开架借阅处于次要地位。开架借阅在某种程度上确实使书目数据处于辅助作用,但图书馆员对图书的组织管理依然主要依赖于书目数据,网络环境下的远程检索更是离不开书目数据。《中国植物志》80卷126分册,如果省略了分册书名(按照编目规则只著录书名页上的信息是可以的),读者如何识别相关植物的“门”、“纲”、“目”、“科”、“属”等情况?
(6)期刊的著录比图书简单。期刊数据库的迅速发展,使得图书馆亦可不再重复揭示期刊中包含的各篇文献信息,但是期刊的名称、内容、刊期等动态变化则是绝对的,故CNMARC中为其设置的字段甚至比图书的还要多。
(7)字段多。尽管设置有184个字段,有的可以重复使用;但是它们是立足于处置各种类型文献的不同情况。如果按照不同文献类型使用的字段看,相关字段的数量将大大缩小,常用字段更是屈指可数(通常不超过20个字段)。
对CNMARC字段的改革
CNMARC字段设置的不断增加,既有与时俱进的合理性,也存在一些日益繁琐、不利操作的现象,需要改革。
(1)归并相似字段。如果说CNMARC有些字段是相似的[例如“010国际标准书号(ISBN)”、“011国际标准连续出版物号”、“040 CODEN(连续出版物)”与“091”],但由于它们是处理不同历史时期或形式的标准代码,尚有分别存在的道理。那么,“014 论文标识号”与“073 国际论文号”之间,或它们与010、011之间有所重复或交叉,宜采取归并措施以简化字段。尤其是结构复杂的代码,不仅实用价值不大,而且容易出差错。再如,“410 丛编”、“411 附属丛编”与“461 总集”、“462 分集”是2对反映文献层次关系的相似字段,也是容易混淆的。
(2)减少重复字段。“资料特定细节项”既不用于检索,也不用于统计,只是承当用于识别、鉴别的描述作用,设置一个公共字段足矣(如同“题名与责任说明”通用200字段)。而CNMARC在初版207字段后,又增设206、208、230字段,是否必要?值得商榷。
(3)减少说明性字段。“附注块”并不用于检索或统计,主要是用于著录一些需要说明的情况(并非必备),设置1个(在初版就明确300字段可以代替301至315任何字段)或少数几个字段就可以处置相关信息。但是CNMARC也是一再细化、增设字段,目前达到35个字段。可否将值得说明的情况集中,字段较大规模压缩?
(4)减少已被涵盖或交叉性字段。“主题分析块”所初设的字段已经比较全面地兼顾语词、代码方面反映文献的主题。尽管其中“610 非控主题词”比较稳定,但笔者还是建议将其改称为更加明确的“关键词”;因为与其对应的606字段名称很不稳定(初版称“普通主题”,1996年版为“学科名称主题”,最新版又改名为“论题名称主题”),倒不如称为“叙词”更明确。尤其是“616 商标主题”,往往已经在文献的某字段中反映过了,没必要在此重复。
(5)合并某些非统计性的检索字段。CNMARC固然有比卡片目录更多的检索途径,即使将同一检索途径中的内容梳理、细分成不同字段,也是殊途同归。以题名为例,有正题名、分题名、交替题名、合订题名、丛编题名、统一题名、封面题名、书脊题名……,都是通过“题名”这一检索窗口而不是细分的对应窗口实现的。(6)减少或压缩与检索性字段重复的字段或子字段。著录信息重复理应精简,但要具体分析、对待。一种情况是鉴别与检索:如200字段中$f和$g与7—字段都是著录责任者信息。笔者认为在CNMARC中,7—字段可以突破“著录不过三”的卡片目录著录常规(这正是CNMARC优势所在),扩展检索;200字段中$f和$g则可以只取“排名第一者”(不宜取消),用于鉴别。另一情况是一字段的功能可以覆盖另一字段:如225与410字段都用于丛编,前者只是描述性显示,而后者既可作为检索点,又可生成附注。
结语
据统计,2003年我国正式出版图书190 391种,其中新版图书110 812种[11],使得文献编目的工作量不断增大。优质、高效地编制书目数据是图书馆员的责任,但这项工作涉及到多方面,并不是某些人认为的“外包”(因为总有本馆特定的文献需要编目员处置)、“改换元数据”、“只著录有实际检索意义的字段”等那样简单。
简化编目固然是为了提高编目工作效率,但值得注意的是不能降低CNMARC的描述、检索、统计功能,影响用户使用。这就需要统筹考虑进行删、减、改、并,达到精简字段,易于操作,方便利用的目的。