论文部分内容阅读
摘要:文章采用引文分析法,探究了图书情报领域研究对学术深网资源(AIW资源)的利用情况与趋势。文章首先界定学术深网资源的内涵与特征,爬取近五年出现在领域权威期刊中的学术深网资源引文作为研究样本,进而从学术深网资源引文的总体情况、资源类型、和资源来源三个层面进行分析,最后对科研资源的聚合与服务建设发展提出了建议。
关键词:学术深网资源;资源聚合;学科服务;引文分析法
中图分类号:G250.73 文献标识码:A DOI:10.1 1968/tsyqb.1003-6938.2016039
1.引言
以开放存取运动(Open Access Movement)为代表的模式变革促使越来越多的学术资源数字化后呈现在网络中,而搜索引擎的诞生极大地方便了科研工作者查找此类资源并由此改变了他们的信息搜索与利用行为。近年来国内外学者开始从网络引文角度关注网络学术资源的利用情况,多数聚焦于引文数量、域名分布、可追溯性等特征指标,鲜有对网络引文资源类型的深层次挖掘。本文以学术深网资源为研究切人点,探索通过引文分析法研究“看不见”网站资源对图书情报学科科研工作的价值,揭示本领域学者对此类资源的利用规律,以期为进一步开发和利用学术深网资源提供依据。
2.“看不见”的网站与学术深网资源
2.1“看不见”的网站与学术深网
“Invisible Web”最初产生于互联网领域,类似的概念包括“Deep Web”、“Hidden Web”等,国内学者马费成将其译为“看不见”的网站。美国图书馆员和信息专家Chris sherman和GaryPrice将“看不见”的网站定义为:在互联网上可获得的,但传统的搜索引擎由于技术限制不能,或者经过慎重考虑后不作索引的那些网页、文件或其它高质量、权威的信息。而在学术工作中,由于“看不见”的网站的存在,搜索引擎的结果质量往往引发质疑。基于此,德国学者Dirk Lewandowski与Philipp Mayr提出了学术深网(Academic Invisible Web,AIW)的概念,指包括所有数据库在内的传统搜索引擎无法检索到的学术内容,并认为,学术深网涵盖了文献(如期刊论文、学位论文、报告、图书)、数据(如调查数据)、电子内容(如开放存取文档)等资源,对学术工作极具价值。美国数据整合与企业信息分析公司Bright Planet发布的白皮书进一步显示,“看不见”的资源规模远大于表面网(Surface Web)并持续高速增长,同时,信息质量与内容深度也远高于表面网。
2.2学术深网资源类型
“看不见”的网站以关系数据库fRelationalDatabase Files)内容为主,还包括未被链接的网页(Unlinked Pages)、非HTML网页(Non-html Pages)、特殊文件(Special Files)、实时或者流动文件(Realtime or Streaming Files)以及动态网页(Dynamic Pages)等。国内学者陈红勤在Sherman和Price工作的基础上归纳出“看不见”的网站形成的原因主要有技术、经济和知识产权三类。Lewandowski和Mayr认为,从图书馆的角度而言,学术深网资源(后文简称AIW资源)以诸如PDF、PPT、DOC格式的特殊文件为主。随着技术的发展,一些AIW资源正逐渐变得可见,譬如使用“关键词+filetvpe:pdf”的查询语句可以检索PDF格式的文件,又如谷歌与百度都新增了图像搜索功能等。尽管如此,“一站式”检索并未真正实现。因而,本文仍将上述类型资源划归为AIW资源。
3.数据来源与处理
国家标准化管理委员会于2005年发布的最新版《文后参考文献著录规则》(以下简称《规则》),规定了包括数据库在内的网络资源的标引格式。但根据《规则》识别AIW资源存在两个困难:一是部分文献尤其是年代较久的文献并未严格按照《规则》进行标引:二是某些资源特征无法通过著录符号识别与区分,如动态网页与静态网页。为弥补以上不足,本文采用著录符号与URL双重特征识别方法抽取目标引文,AIW资源分类与特征见表1。
在数据来源上,为准确把握图书情报领域AIW资源利用情况,在综合考量数据的可获取性、准确性和权威性等方面的基础上,本文选取中文社会科学引文索引(CSSCI)公布的《CSSCI(2014-2015)来源期刊拟收录目录》中的《中国图书馆学报》、《大学图书馆学报》、《图书情报工作》与《情报学报》①4种期刊2010年至2014年刊载的学术论文作为研究样本获取AIW引文。以往引文分析研究数据来源大多为CSSCI,但笔者经测试发现,从CSSCI中提取到的引文数据存在内容缺少或格式不规范等问题。比较后,本文选取万方数据库作为数据源,根据数据抽取规则编写爬虫程序获得目标著录信息。数据采集时间为2015年11月18日到11月22日,共得到含AIW引文论文1699篇,AIW引文4597条。
4.数据分析
4.1AIW引文总体描述
从期刊分布和年度分布两个维度,通过AIW引文的统计分析可以间接地反映科研工作者对AIW资源的价值认识和依赖程度。从表2可以看出,含AIW引文论文在全部刊载论文中占比超过三分之一,而《中国图书馆学报》更是超过半数,其中,篇均AIW引文数为2.71,AIW引文数在网络引文总数中占比达到30.22%。这表明AIW资源是网络学术资源的重要组成部分,被图书情报领域学者广泛认可,并在其科研工作中发挥着重要价值。按时间顺序纵向观察(见表3)可以发现2010-2014五年间单篇论文引用的AIW资源条目不断增加,引用AIW资源的论文比重也大致呈上升趋势,尤其是2013、2014两年,比重达到40%左右。这反映出图书情报领域学者对AIW资源的认同度不断提升,越来越重视AIW资源的利用。
关键词:学术深网资源;资源聚合;学科服务;引文分析法
中图分类号:G250.73 文献标识码:A DOI:10.1 1968/tsyqb.1003-6938.2016039
1.引言
以开放存取运动(Open Access Movement)为代表的模式变革促使越来越多的学术资源数字化后呈现在网络中,而搜索引擎的诞生极大地方便了科研工作者查找此类资源并由此改变了他们的信息搜索与利用行为。近年来国内外学者开始从网络引文角度关注网络学术资源的利用情况,多数聚焦于引文数量、域名分布、可追溯性等特征指标,鲜有对网络引文资源类型的深层次挖掘。本文以学术深网资源为研究切人点,探索通过引文分析法研究“看不见”网站资源对图书情报学科科研工作的价值,揭示本领域学者对此类资源的利用规律,以期为进一步开发和利用学术深网资源提供依据。
2.“看不见”的网站与学术深网资源
2.1“看不见”的网站与学术深网
“Invisible Web”最初产生于互联网领域,类似的概念包括“Deep Web”、“Hidden Web”等,国内学者马费成将其译为“看不见”的网站。美国图书馆员和信息专家Chris sherman和GaryPrice将“看不见”的网站定义为:在互联网上可获得的,但传统的搜索引擎由于技术限制不能,或者经过慎重考虑后不作索引的那些网页、文件或其它高质量、权威的信息。而在学术工作中,由于“看不见”的网站的存在,搜索引擎的结果质量往往引发质疑。基于此,德国学者Dirk Lewandowski与Philipp Mayr提出了学术深网(Academic Invisible Web,AIW)的概念,指包括所有数据库在内的传统搜索引擎无法检索到的学术内容,并认为,学术深网涵盖了文献(如期刊论文、学位论文、报告、图书)、数据(如调查数据)、电子内容(如开放存取文档)等资源,对学术工作极具价值。美国数据整合与企业信息分析公司Bright Planet发布的白皮书进一步显示,“看不见”的资源规模远大于表面网(Surface Web)并持续高速增长,同时,信息质量与内容深度也远高于表面网。
2.2学术深网资源类型
“看不见”的网站以关系数据库fRelationalDatabase Files)内容为主,还包括未被链接的网页(Unlinked Pages)、非HTML网页(Non-html Pages)、特殊文件(Special Files)、实时或者流动文件(Realtime or Streaming Files)以及动态网页(Dynamic Pages)等。国内学者陈红勤在Sherman和Price工作的基础上归纳出“看不见”的网站形成的原因主要有技术、经济和知识产权三类。Lewandowski和Mayr认为,从图书馆的角度而言,学术深网资源(后文简称AIW资源)以诸如PDF、PPT、DOC格式的特殊文件为主。随着技术的发展,一些AIW资源正逐渐变得可见,譬如使用“关键词+filetvpe:pdf”的查询语句可以检索PDF格式的文件,又如谷歌与百度都新增了图像搜索功能等。尽管如此,“一站式”检索并未真正实现。因而,本文仍将上述类型资源划归为AIW资源。
3.数据来源与处理
国家标准化管理委员会于2005年发布的最新版《文后参考文献著录规则》(以下简称《规则》),规定了包括数据库在内的网络资源的标引格式。但根据《规则》识别AIW资源存在两个困难:一是部分文献尤其是年代较久的文献并未严格按照《规则》进行标引:二是某些资源特征无法通过著录符号识别与区分,如动态网页与静态网页。为弥补以上不足,本文采用著录符号与URL双重特征识别方法抽取目标引文,AIW资源分类与特征见表1。
在数据来源上,为准确把握图书情报领域AIW资源利用情况,在综合考量数据的可获取性、准确性和权威性等方面的基础上,本文选取中文社会科学引文索引(CSSCI)公布的《CSSCI(2014-2015)来源期刊拟收录目录》中的《中国图书馆学报》、《大学图书馆学报》、《图书情报工作》与《情报学报》①4种期刊2010年至2014年刊载的学术论文作为研究样本获取AIW引文。以往引文分析研究数据来源大多为CSSCI,但笔者经测试发现,从CSSCI中提取到的引文数据存在内容缺少或格式不规范等问题。比较后,本文选取万方数据库作为数据源,根据数据抽取规则编写爬虫程序获得目标著录信息。数据采集时间为2015年11月18日到11月22日,共得到含AIW引文论文1699篇,AIW引文4597条。
4.数据分析
4.1AIW引文总体描述
从期刊分布和年度分布两个维度,通过AIW引文的统计分析可以间接地反映科研工作者对AIW资源的价值认识和依赖程度。从表2可以看出,含AIW引文论文在全部刊载论文中占比超过三分之一,而《中国图书馆学报》更是超过半数,其中,篇均AIW引文数为2.71,AIW引文数在网络引文总数中占比达到30.22%。这表明AIW资源是网络学术资源的重要组成部分,被图书情报领域学者广泛认可,并在其科研工作中发挥着重要价值。按时间顺序纵向观察(见表3)可以发现2010-2014五年间单篇论文引用的AIW资源条目不断增加,引用AIW资源的论文比重也大致呈上升趋势,尤其是2013、2014两年,比重达到40%左右。这反映出图书情报领域学者对AIW资源的认同度不断提升,越来越重视AIW资源的利用。