论文部分内容阅读
非控主题词,也称自由词,是指词表未收、可随需要增补、不作为正式标引检索用词、但可实际用于检索,具有较大的识别功能的词。非控主题词属于自然语言范畴,其专指度一般高于词表中的正式词。在CNMARC(中国机读目录格式)中,610字段反映非控主题词。
1.受控主题词的局限性
叙词是经过规范化的词或词组。叙词排除了自然语言中一词多义、多词一义和语意含混的现象,通过显示概念之间的等同、等级以及相关关系,达到概念与语词一一对应,在文献检索中实现了较高的查准率和查全率。随着科技发展,叙词的不足也显示出来,这主要表现在:一、叙词词表的相对滞后,叙词词表的修订一般要经过5~7年的时间,由于词表更新周期偏长,故它的词汇滞后问题比较突出,不少新、特、专名词或术语未见表中,词表难以满足新学科、新技术文献标引的需要;二、叙词标引对标引人员要求较高且标引成本较高,由于叙词标引需要查表和斟酌,标引速度较慢且难以保证标引的统一性(既不同标引者或同一标引者不同时期标引同一文献的基本一致);三、叙词标引查准率低。叙词标引,查全率高,但词汇量有限且词表出版滞后,故查准率低;四、不符合大多数读者的检索习惯。普通的读者不了解叙词标引,一般采用自然语言做检索入口词,这使叙词标引不能起到引导读者的作用。
2.非控主题词的优势
在手工检索时代,非控主题词由于存在同义词、近义词难以排检的问题而难以使用。文献主题分析一般都使用受控主题词。随着计算机技术在信息检索领域的应用,计算机强大的信息处理能力,计算机快速的反应速度使非控主题词的排检难题得以解决,非控主题词不可替代的优势逐步体现。非控主题词标引与受控主题词标引相比,具有以下优势:一、直接反映了新学科、新技术文献,并且为主题词表的增补、修订提供了文献数据保证;二、加大文献的检索深度和专指度;三、较好地解决了读者界面问题,更适应读者使用自然语言检索,并通过自由词入口,指引读者使用主题词扩大检索范围;四、提高信息检索的查准率。
3.非控主题词选词存在的问题
非控主题词用于主题标引、揭示文献主题内容给文献编目工作带来了很大的便利。特别是对于新兴学科、边沿学科、综合学科的主题揭示,编目人员可以选择专指度更高的词语、词组揭示主题,而且这些词语更符合读者的检索习惯。但是所谓不受主题词表约束的自由取词,并不意味着可以任意遣词,可以按任何形式表达主题,即便是“自由”也要受制于文献主题内容以及约定俗成的语言习惯。综合说来,非控主题词的使用还存在以下问题。
3.1 没有充分反映新兴学科、边沿学科
由于主题词表存在修订周期过长,难以反映新兴学科、边沿学科的问题,非控主题词应在反映最新学科动态中发挥积极作用。但是部分书目数据并未反映这些学科的最新发展。例:
例1:博客:信息革命最前沿的定位
误:6060#$a互联网络$x传播媒介$x研究
正:6060#$a互联网络$x传播媒介$x研究
6100#$a博客
例2:四季花语:纸黏土花艺创作
误:6060#$a雕塑$x技法(美术)
正:6060#$a雕塑$x技法(美术)
6100#$a纸黏土
3.2 选词专指度不足
由于自由词可选择的范围大、形式多样,揭示同一主题往往有多个可以选择自由词。但是,列出所有自由词来反映主题既不现实也是不必要。非控主题词也应尽量选择专指度高的词来反映主题。但是,在一些书目数据中还存在选用专指度不高的非控主题词的问题。
例3:张国荣画传
误:6060#$a演员$x生平事迹$y中国$z现代
6100#$a张发宗(1956-2003)
正:6060#$a演员$x生平事迹$y中国$z现代
6100#$a张国荣(1956-2003)
例4:部落格就酱玩
误:6060#$a互联网络$x传播媒介$x研究
6100#$ablog
正:6060#$a互联网络$x传播媒介$x研究
6100#$a博客
例5:台湾海基会的故事
误:6060#$a海峡两岸$x台湾问题
6100#$a台湾海基会
正:6060#$a海峡两岸$x台湾问题
6100#$a海基会
3.3 非控主题词揭示学科内涵过于狭隘
现在新兴学科发展迅速,技术更新的速度加快,很多技术一至两年已经实现更新换代。如果非控主题词选取过于机械而不加提炼,就会割裂同一学科技术,不利于同类学科检索。例如,Photoshop 6.0、Photoshop 7.0、Photoshop 8.0只是Photoshop的不同版本,在非控主题词选取上应采用相同形式。
例7:Photoshop 8.0案例教程上机指导与练习
误:6060#$a图象处理$x应用软件$x职业高中$j教学参考资料
6100#$a Photoshop 8.0
正:6060#$a图象处理$x应用软件$x职业高中$j教学参考资料
6100#$a Photoshop
3.4 非控主题词揭示深度不足
在CNMARC中,610字段不像其它受控主题词字段有多个子字段,分别可以表示主题的款目要素、名称的其余部分、名称附加、年代、形式复分、论题复分、地理复分、年代复分等众多内容。610字段只有$a一个子段,这造成部分非控主题词过于简单,不能起到区别标识不同主题的作用。特别是人名作为非控主题词时问题特别突出。中国人名一般是两个字或三个字,重名情况比较多,特别是王、李、赵等大姓,重名现象特别突出。笔者在国家图书馆书目数据库做了一个测试,以“王爱英”检索书目数据,共有29条数据命中。这些数据是10余名不同著者的不同作品,数据内容涉及计算机、小说、职工教育、电器维修、家庭文化、公共关系、胃肠道双重对比造影、建筑力学、水力发电站、室外景观等多个方面。这说明单一形式的人名不能起到区分作用。
3.5 选词形式不规范
非控主题词选词不仅需要考虑文献主题内容,而且要考虑汉语表达的形式。非控主题词应选择名词,而不能选择表示行为的动词。至于代词、介词、连词、副词等不应做为非控主题词的备选对象。如例8所示,创业是动词,不应做为非控主题词。
例8:自备额0元成功贷款创业
误:6060#$a商业经营$x基本知识
6100#$a创业
正:6060#$a 商业经营$x基本知识
3.6 主题词表中被替代的词不应再作为非控主题词使用
随着社会、经济、科技与文化的发展,新的主题概念与新的词汇大量出现,受控主题词每隔一段时间就会做一次修订。在修订过程中,大量新词加进词表,部分使用频率较低的词被替代。在选择非控主题词时,不应再使用被替代的主题词作为非控主题词。
例9:西餐烹调理论与实务
误:6060#$a西式菜肴$x烹饪
6100#$a西餐
正:6060#$a西式菜肴$x烹饪
3.7 同一类型文献选择的非控主题词形式不一致
对同一类文献的非控主题词形式的选择,不同的编目人员往往会有不同的选择侧重点,即使同一编目人员不同编目时间也可能有不同的选择。这使同一类型文献非控主题词形式多样,不利于读者对同类文献检索与使用。
例10:开放式WebGIS的理论与实践
6060#$a互联网络$x应用$x地理信息系统$x研究
6100#$aWebGIS
Web GIS原理及其应用
6060#$a互联网络$x应用$x地理信息系统$x研究
6100#$aGIS
4.非控主题词的选词原则
虽然非控主题词标引可以根据文献主题,不受主题词表约束,选择专指度更高的词,但并不意味着可以任意遣词。在以主题词标引为主要手段的前提下,非控主题词标引必须是在词表中主题词对文献的内容主题无法描述和表达,或者是描述和表达不清楚的情况下使用。非控主题词的选取还应遵循一定的原则。
610字段就其揭示内容来看,大致可以分为两类:一、揭示人名、地名、团体会议名称;二、揭示文献内容主题。这两类非控主题词选词原则应各有侧重。
4.1名称非控主题词的选词原则
4.1.1揭示人名特征的非控主题词,选择最著称的形式,并附生卒年。如果是女性、少数民族应相应标出,以示区分。外国人中译名称应使用最著称、最常见或最新的中译名形式,并尽量附国别、原名姓名全称形式、生卒年。
例11:6100#$a张国荣(1956~2003)
例12:6100#$a杜拉斯(女,1914~1996,Duras ,Marguerite,法国)
4.1.2 揭示地名特征的非控主题词,可根据文献提示范围,在610字段直接标引乡、镇、村,同时利用607字段进行说明与限制。
例13:厚街镇志
607##$a东莞市$x乡镇$x地方志
6100#$a厚街镇
例14:猎德村志
607##$a广州市$x村史
6100#$a猎德村
4.1.3揭示团体会议特征的非控主题词,选择最著称的形式。
例15:6100#$a海基会
4.2主题非控主题词的选词原则
4.2.1用词规范。非控主题词选择一般不选用口语词汇或新闻用语,而应该从文献内容中提取对揭示文献主题的名词和名词化的词组术语。专业术语、专业词汇不予分解。 4.2.2应具有鲜明的主题性、前瞻性、简明性和单一性。对能够反映新学科、新理论、新技术、新材料、新工艺等概念的词语应用非控主题词反映。被选择的非控主题词应经过推敲,应具有单一性,使概念和语词达到一一对应,以避免产生歧义。
4.2.3 凡主题词表中已收入的具有用代关系的主题词,被代用的非正式主题词不能作为非控制主题词标引。
4.2.4注意选词的专指度和适度性。选择与文献主题内容直接对应的、专指度高的词,不必把文献主题内容相关联的主题也作为非控主题词。
4.2.5非控主题词一旦使用,应做好记录。至少要保证同一编目机构文献标引的一致性,从而提高书目数据的标引质量。如果该非控主题词有多个同义词,应在610字段重复$a子字段,以方便读者从多个入口检索数据。
例16:非典型肺炎预防与治疗实用手册
6100#$a非典型肺炎$aSARS$a非典
综上所述,虽然610字段提供的是非控主题词,但并非所有的自由词都适用于该字段著录。以上是笔者关于非控主题词的选取原则的一点看法,欢迎广大专家、同行批语、指正。
(作者单位:广东省立中山图书馆)
参考文献:
1.胡晓鹰. CNMARC中非控主题词著录现状分析. 图书馆建设,2006(2)
2.许勇. CNMARC610字段与关键词标引.上海高校图书情报工作研究,2006(3)
3.邓福泉.对使用CNMARC 610字段著录自由词的探讨.国家图书馆学刊,2004(4)
4.竺晓岚.谈CNMARC非控主题词的使用. 当代图书馆,2004(2)
1.受控主题词的局限性
叙词是经过规范化的词或词组。叙词排除了自然语言中一词多义、多词一义和语意含混的现象,通过显示概念之间的等同、等级以及相关关系,达到概念与语词一一对应,在文献检索中实现了较高的查准率和查全率。随着科技发展,叙词的不足也显示出来,这主要表现在:一、叙词词表的相对滞后,叙词词表的修订一般要经过5~7年的时间,由于词表更新周期偏长,故它的词汇滞后问题比较突出,不少新、特、专名词或术语未见表中,词表难以满足新学科、新技术文献标引的需要;二、叙词标引对标引人员要求较高且标引成本较高,由于叙词标引需要查表和斟酌,标引速度较慢且难以保证标引的统一性(既不同标引者或同一标引者不同时期标引同一文献的基本一致);三、叙词标引查准率低。叙词标引,查全率高,但词汇量有限且词表出版滞后,故查准率低;四、不符合大多数读者的检索习惯。普通的读者不了解叙词标引,一般采用自然语言做检索入口词,这使叙词标引不能起到引导读者的作用。
2.非控主题词的优势
在手工检索时代,非控主题词由于存在同义词、近义词难以排检的问题而难以使用。文献主题分析一般都使用受控主题词。随着计算机技术在信息检索领域的应用,计算机强大的信息处理能力,计算机快速的反应速度使非控主题词的排检难题得以解决,非控主题词不可替代的优势逐步体现。非控主题词标引与受控主题词标引相比,具有以下优势:一、直接反映了新学科、新技术文献,并且为主题词表的增补、修订提供了文献数据保证;二、加大文献的检索深度和专指度;三、较好地解决了读者界面问题,更适应读者使用自然语言检索,并通过自由词入口,指引读者使用主题词扩大检索范围;四、提高信息检索的查准率。
3.非控主题词选词存在的问题
非控主题词用于主题标引、揭示文献主题内容给文献编目工作带来了很大的便利。特别是对于新兴学科、边沿学科、综合学科的主题揭示,编目人员可以选择专指度更高的词语、词组揭示主题,而且这些词语更符合读者的检索习惯。但是所谓不受主题词表约束的自由取词,并不意味着可以任意遣词,可以按任何形式表达主题,即便是“自由”也要受制于文献主题内容以及约定俗成的语言习惯。综合说来,非控主题词的使用还存在以下问题。
3.1 没有充分反映新兴学科、边沿学科
由于主题词表存在修订周期过长,难以反映新兴学科、边沿学科的问题,非控主题词应在反映最新学科动态中发挥积极作用。但是部分书目数据并未反映这些学科的最新发展。例:
例1:博客:信息革命最前沿的定位
误:6060#$a互联网络$x传播媒介$x研究
正:6060#$a互联网络$x传播媒介$x研究
6100#$a博客
例2:四季花语:纸黏土花艺创作
误:6060#$a雕塑$x技法(美术)
正:6060#$a雕塑$x技法(美术)
6100#$a纸黏土
3.2 选词专指度不足
由于自由词可选择的范围大、形式多样,揭示同一主题往往有多个可以选择自由词。但是,列出所有自由词来反映主题既不现实也是不必要。非控主题词也应尽量选择专指度高的词来反映主题。但是,在一些书目数据中还存在选用专指度不高的非控主题词的问题。
例3:张国荣画传
误:6060#$a演员$x生平事迹$y中国$z现代
6100#$a张发宗(1956-2003)
正:6060#$a演员$x生平事迹$y中国$z现代
6100#$a张国荣(1956-2003)
例4:部落格就酱玩
误:6060#$a互联网络$x传播媒介$x研究
6100#$ablog
正:6060#$a互联网络$x传播媒介$x研究
6100#$a博客
例5:台湾海基会的故事
误:6060#$a海峡两岸$x台湾问题
6100#$a台湾海基会
正:6060#$a海峡两岸$x台湾问题
6100#$a海基会
3.3 非控主题词揭示学科内涵过于狭隘
现在新兴学科发展迅速,技术更新的速度加快,很多技术一至两年已经实现更新换代。如果非控主题词选取过于机械而不加提炼,就会割裂同一学科技术,不利于同类学科检索。例如,Photoshop 6.0、Photoshop 7.0、Photoshop 8.0只是Photoshop的不同版本,在非控主题词选取上应采用相同形式。
例7:Photoshop 8.0案例教程上机指导与练习
误:6060#$a图象处理$x应用软件$x职业高中$j教学参考资料
6100#$a Photoshop 8.0
正:6060#$a图象处理$x应用软件$x职业高中$j教学参考资料
6100#$a Photoshop
3.4 非控主题词揭示深度不足
在CNMARC中,610字段不像其它受控主题词字段有多个子字段,分别可以表示主题的款目要素、名称的其余部分、名称附加、年代、形式复分、论题复分、地理复分、年代复分等众多内容。610字段只有$a一个子段,这造成部分非控主题词过于简单,不能起到区别标识不同主题的作用。特别是人名作为非控主题词时问题特别突出。中国人名一般是两个字或三个字,重名情况比较多,特别是王、李、赵等大姓,重名现象特别突出。笔者在国家图书馆书目数据库做了一个测试,以“王爱英”检索书目数据,共有29条数据命中。这些数据是10余名不同著者的不同作品,数据内容涉及计算机、小说、职工教育、电器维修、家庭文化、公共关系、胃肠道双重对比造影、建筑力学、水力发电站、室外景观等多个方面。这说明单一形式的人名不能起到区分作用。
3.5 选词形式不规范
非控主题词选词不仅需要考虑文献主题内容,而且要考虑汉语表达的形式。非控主题词应选择名词,而不能选择表示行为的动词。至于代词、介词、连词、副词等不应做为非控主题词的备选对象。如例8所示,创业是动词,不应做为非控主题词。
例8:自备额0元成功贷款创业
误:6060#$a商业经营$x基本知识
6100#$a创业
正:6060#$a 商业经营$x基本知识
3.6 主题词表中被替代的词不应再作为非控主题词使用
随着社会、经济、科技与文化的发展,新的主题概念与新的词汇大量出现,受控主题词每隔一段时间就会做一次修订。在修订过程中,大量新词加进词表,部分使用频率较低的词被替代。在选择非控主题词时,不应再使用被替代的主题词作为非控主题词。
例9:西餐烹调理论与实务
误:6060#$a西式菜肴$x烹饪
6100#$a西餐
正:6060#$a西式菜肴$x烹饪
3.7 同一类型文献选择的非控主题词形式不一致
对同一类文献的非控主题词形式的选择,不同的编目人员往往会有不同的选择侧重点,即使同一编目人员不同编目时间也可能有不同的选择。这使同一类型文献非控主题词形式多样,不利于读者对同类文献检索与使用。
例10:开放式WebGIS的理论与实践
6060#$a互联网络$x应用$x地理信息系统$x研究
6100#$aWebGIS
Web GIS原理及其应用
6060#$a互联网络$x应用$x地理信息系统$x研究
6100#$aGIS
4.非控主题词的选词原则
虽然非控主题词标引可以根据文献主题,不受主题词表约束,选择专指度更高的词,但并不意味着可以任意遣词。在以主题词标引为主要手段的前提下,非控主题词标引必须是在词表中主题词对文献的内容主题无法描述和表达,或者是描述和表达不清楚的情况下使用。非控主题词的选取还应遵循一定的原则。
610字段就其揭示内容来看,大致可以分为两类:一、揭示人名、地名、团体会议名称;二、揭示文献内容主题。这两类非控主题词选词原则应各有侧重。
4.1名称非控主题词的选词原则
4.1.1揭示人名特征的非控主题词,选择最著称的形式,并附生卒年。如果是女性、少数民族应相应标出,以示区分。外国人中译名称应使用最著称、最常见或最新的中译名形式,并尽量附国别、原名姓名全称形式、生卒年。
例11:6100#$a张国荣(1956~2003)
例12:6100#$a杜拉斯(女,1914~1996,Duras ,Marguerite,法国)
4.1.2 揭示地名特征的非控主题词,可根据文献提示范围,在610字段直接标引乡、镇、村,同时利用607字段进行说明与限制。
例13:厚街镇志
607##$a东莞市$x乡镇$x地方志
6100#$a厚街镇
例14:猎德村志
607##$a广州市$x村史
6100#$a猎德村
4.1.3揭示团体会议特征的非控主题词,选择最著称的形式。
例15:6100#$a海基会
4.2主题非控主题词的选词原则
4.2.1用词规范。非控主题词选择一般不选用口语词汇或新闻用语,而应该从文献内容中提取对揭示文献主题的名词和名词化的词组术语。专业术语、专业词汇不予分解。 4.2.2应具有鲜明的主题性、前瞻性、简明性和单一性。对能够反映新学科、新理论、新技术、新材料、新工艺等概念的词语应用非控主题词反映。被选择的非控主题词应经过推敲,应具有单一性,使概念和语词达到一一对应,以避免产生歧义。
4.2.3 凡主题词表中已收入的具有用代关系的主题词,被代用的非正式主题词不能作为非控制主题词标引。
4.2.4注意选词的专指度和适度性。选择与文献主题内容直接对应的、专指度高的词,不必把文献主题内容相关联的主题也作为非控主题词。
4.2.5非控主题词一旦使用,应做好记录。至少要保证同一编目机构文献标引的一致性,从而提高书目数据的标引质量。如果该非控主题词有多个同义词,应在610字段重复$a子字段,以方便读者从多个入口检索数据。
例16:非典型肺炎预防与治疗实用手册
6100#$a非典型肺炎$aSARS$a非典
综上所述,虽然610字段提供的是非控主题词,但并非所有的自由词都适用于该字段著录。以上是笔者关于非控主题词的选取原则的一点看法,欢迎广大专家、同行批语、指正。
(作者单位:广东省立中山图书馆)
参考文献:
1.胡晓鹰. CNMARC中非控主题词著录现状分析. 图书馆建设,2006(2)
2.许勇. CNMARC610字段与关键词标引.上海高校图书情报工作研究,2006(3)
3.邓福泉.对使用CNMARC 610字段著录自由词的探讨.国家图书馆学刊,2004(4)
4.竺晓岚.谈CNMARC非控主题词的使用. 当代图书馆,2004(2)