SSCI文献引文数据的预处理

来源 :科学与管理 | 被引量 : 0次 | 上传用户:lidenglu1114
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:在SSCI的文献数据中,同一专著或文集类在被引用时题名、版本年份及作者名拼写存在着不一致的情况,为了使其具有一致性,本文提出了对引文数据进行预处理的方法。对文献数据进行文献和作者共被引分析,分别获得重要文献和作者的列表;对文献名和作者名按字母排序,找出同一文献不同的题名和出版年份以及同一作者名的不同拼写,利用“搜索”和“替换”功能对引文数据进行修改。经过对引文数据的预处理,共被引网络中的重要节点及其被引次数,以及共被引连线明显增多。对于著作和文集类被引文献占较大比例的社会科学研究领域,进行引文数据预处理有助于获得更客观的计量分析结果。
  关键词:引文数据;预处理;SSCI;共被引分析
  中图分类号:G353.1文献标识码: ADOI:10.3969/j.issn.1003-8256.2020.01.006
  开放科学(资源服务)标识码(OSID):
  基金项目:广西高校科研重点项目(ZD2014009)
  《科学引文索引》(Science Citation Index,SCI)是对自然科学研究成果进行文献计量分析常用的数据源之一,针对其数据结构,已开发出多种计量分析工具[1]。1973年,美国科学情报研究所(Institute for Scientific Information)按照SCI的模式又创立了社会科学引文索引(Social Science Citation Index,SSCI)。这两个数据库的文献数据结构相同,文献的引文数据的格式也相同。因此,基于SCI文献数据结构开发的计量分析工具也同样可用于分析SSCI的文献数据。然而,笔者发现,社会科学的许多学科领域有其自身的特点,专著、文集类文献在被引文献中占有较大的比例。这类文献的题名拼写和版本年份往往存在不一致的问题。为了获得更为客观的分析结果,有必要在计量分析前对这些领域的引文数据进行预处理。
  2010年,董琳[2]探讨了SCI文献数据中机构名和国名的处理问题,孙源[3],张晋辉和刘清[4]分别提出了针对SCI文献数据中地址字段的处理方案。但笔者未能检索到有关处理著作题名和版本年份的研究文献。
  1期刊文献在被引文献中的比例
  为了比较被引文献中期刊文献所占的比例,笔者在SSCI和SCI数据库中选择了若干期刊:
  (1)根据SSCI数据库对期刊的分类,在各类别中分别选择1种有代表性的期刊,共计57种;
  (2)在SSCI数据库中,以“Marx*”为检索词进行主题检索,选择载文数量最多的前8种期刊;
  (3)除选择Nature和Science外,在SCI数据库按数学、物理、化学、天文、生物和地质6个一级学科各选择1种有代表性的期刊,共计8种。
  以表格格式(win)分别下载上述期刊2017年最后一期的论文(article)数据。利用Excel软件分别打开上述数据文件,从中各提取20篇论文的引文信息。通过人工粗略甄别,统计出被引期刊文献在全部被引文献中的百分比。
  从表1中可以看到,SCI数据库中6个一级学科的代表性期刊,以及Nature和Science的被引期刊文献在全部被引文献中的百分比都相当高,有7种期刊在90%以上,最低的Biological Reviews也接近90%。该百分比在这8种期刊中的平均值为92.5%。

  表3列出的是2017年刊载马克思主义研究成果最多的前8种期刊,被引期刊文献在全部被引文献中所占的百分比都比较低,最高的Antipode不到50%,而最低的Historical Materialism Research in Critical Marxist Theory仅有20%。这8种期刊的平均数为34.8%。
  2专著和文集类引文带来的问题
  期刊论文的引文主要为两大类型,一是期刊类文献,二是专著和文集类文献。其他类型的被引文献,如新闻报道、年鉴、报告等,在全部引文中所占的比例低较。
  运用计量学软件对SCI和SSCI的文献数据进行作者共被引和文献共被引分析时,对于期刊类被引文献而言,主要涉及被引文献第一作者名、出版年号、期刊名、卷号等信息;对专著和文集类文献而言,则主要涉及被引文献第一作者名、出版年号、专著或文集题名、卷号等信息。如今,期刊名已实现了标准化,但专著和文集的题名则未进行标准化。当同一部专著或同一本文集中的同一文献被不同学者引用时,题名的拼写就有可能会出现不一致。如果该专著或文集被再版,或被翻译成其他语种出版,就会出现版本年份的不一致。这导致软件将其判定为不同的文献,在共被引网络中同一被引文献就会分裂成多个节点。一般而言,越是经典的专著,节点分裂的现象越是普遍。因此,对引文数据的预处理是文献计量分析的基础工作之一,它直接决定分析结果的客观性[5]。   以“Marx*”为条件,对1998—2017年SSCI收录的论文进行主题检索,获得4034条文献数据。在运用CiteSpace[6]做文献共被引分析时发现,马克思的经典著作《政治经济学批判大纲》由于题名缩写和版本年份的不同(表4),这一文献在共被引网络中分裂成许多节点。类似地,《资本论》《哥达纲领批判》《共产党宣言》《德意志意识形态》《1844年经济学哲学手稿》,以及葛兰西的《狱中札记》、亚当·斯密的《国富论》、哈维的《资本的极限》等经典著作都存在节点分裂现象。

  在文献共被引和作者共被引网络中的节点分裂,有可能使分析结果无法真实反映文献和作者对特定研究领域所产生的影响和作用。因此,对于著作和文集类被引文献占较大比例的研究领域,在计量分析前有必要对原始的引文数据进行预处理,尽量消除上述的不一致现象。
  3引文数据的预处理
  引文数据的预处理是将原始数据中同一著作或文集的题名、同一作者的姓名缩写统一起来,并将同一著作或文集的版本年份统一起来。根据笔者的经验,可通过以下步骤完成这一工作:
  (1)合并文献数据。SSCI每次可下载500条文献数据,如数据量超过500条,将会得到2个以上的数据文件。为了便于预处理,需要将所有的数据文件合并为1个,在合并前应先备份全部数据文件。
  用鼠标右击数据文件,在“打开方式”中选择“写字板”。每一条文献数据均以“PT”开始,并以“ER”结束。打开第一个数据文件后再打开第二个数据文件,将第二个文件中从第一个“PT”到最后一个“ER”的部分复制到第一个文件末尾的“ER”和“EF”之间。重复上述过程,直到将所有数据文件的内容全都复制到第一个数据文件中,以完成文献数据的合并。合并后,应更改文件名并做备份。
  (2)获取作者和文献的信息,找出不同的拼写和版本年份。运用CiteSpace软件,设置适当的阈值对合并后的文献数据分别进行作者共被引和文献共被引分析,從而获得满足阈值的作者列表和文献列表。阈值越低,越有利于发现分裂开的小节点,但阈值的设置必须兼顾电脑的运算能力。
  将作者列表复制到Word文件中,并按作者名排序,找出同一作者名的不同拼写。将文献列表复制到Word文件后,先将表格转换为文本,再以逗号为分隔符将文本转换为表格,然后分别按文献名和作者名进行排序,分别找出同一文献名的不同拼写、不同版本年份和同一作者名的不同拼写。
  (3)修改引文数据,统一拼写及版本年份。用写字板打开合并后的数据文件,利用“查找”和“替换”功能,将同一作者名、同一文献的题名和同一文献的版本年份分别统一起来。例如,将《政治经济学批判大纲》的作者名统一为“Marx K”,题名和版本年份分别统一为“GRUNDRISSE”和“1857”。
  (4)复查。设置适当的阈值对处理后的数据分别进行作者共被引和文献共被引分析,按步骤(2)对获得的作者和文献列表进行复查,如同一作者名、同一文献题名和同一文献的版本年号仍有不一致的情况,则应按步骤(3)进行修改。
  在上述的步骤(2)中,如遇到作者和文献的一致性无法直接判定的情况,应充分利用搜索引擎、百度学术、多语种电子词典、DOI代码等工具进行交叉印证。
  4结果与讨论
  笔者对上述4034条马克思主义研究的引文数据进行多轮预处理后,获得文献共被引图谱(图1),图中包含123个文献节点,364条共被引连线。采用相同阈值对预处理前的数据进行文献共被引分析,所得图谱只包含72个文献节点,仅有188条共被引连线(图2)。相比较而言,预处理后满足阈值的节点增加了约71%,共被引连线增加了约94%。就节点《政治经济学批判大纲》而言,预处理后其被引次数由353次增加到425次,增加了20%。在预处理前、后的文献共被引网络中,被引文献的排序(表5)和被引作者的排序也相应发生了变化,这表明,经过上述的预处理,可有效地减少节点的分裂现象。

  参考文献:
  [1]李艳,张悦,曾可,等.文献信息分析工具的比较[J].中华医学图书情报杂志, 2015, 24(11): 41-47.
  [2]董琳.学科评价之文献计量数据准备[J].情报理论与实践, 2010, 33(6): 49-52.   [3]孫源.基于Word2Vec的SCI地址字段数据清洗方法研究[J].情报杂志, 2019, 38 (2): 195-200.
  [4]张晋辉,刘清.基于推理机的SCI地址字段数据清洗方法设计[J].情报科学, 2010, 28(5): 741-746.
  [5]闫雪,欧阳海鹰,曾首英,等.文献计量数据准备之数据采集与清洗:以中国水产科学研究院中文期刊论文分析为例[J].农业图书情报学刊, 2014, 26(4): 36-40.
  [6]Chen, C. CiteSpaceⅡ: Detecting and visualizing emerging trends and transient patterns in scientific literature [J]. Journal of the American Society for Information Science and Technology, 2006, 57(3): 359-377.
  The Citation Data Pre-Processing for SSCI Literature Data: A Case Study of Marxism Research
  YAN Jianxin
  (1.SchoolofMarxism,GuangxiUniversity,Nanning530004,China;2WISELab
其他文献
张立立 译    摘要:生物伦理学试图改变传统伦理学的基础,把伦理学建立在生物学的基础上,认为由生物学认知的自然界提供了人类的道德规范,或者说,提供了价值判断的标准。这本质上是一种自然中心主义,完全背离了理性主义伦理学,在一定意义上,是向前现代文明的倒退。  关键词:生物伦理学;理性伦理学;新生物学;自然中心主义  作者简介:尤根·米特斯特拉斯教授(Juergen Mittelstrass)(19
摘 要 课程衔接是高职、本科“3 2”分段培养工作的中心环节,是高职、本科衔接人才培养的关键。吉林师范大学与四平市职业大学就计算机科学与技术专业进行“3 2”分段培养,在明确人才培养目标、“智慧”教学模式和卓越教师队伍作保障的基础上,共同构建了“校企合作—工学结合—面向岗位”的“五年一体化”课程衔接体系。通过对用人单位的满意度调研显示,该课程衔接体系的人才培养效果较好,能体现“3 2”分段培养“基
摘要:随着经济全球化和市场竞争的日益激烈,特别是加入WTO以后,外资零售企业在我国本土化进程也在不断深入,新的贸易伙伴将大量涌现,国内零售企业该如何应对?单凭个别企业的力量是不可能具有多大的竞争力的。在这种形势下,零售企业只有建立联盟,有效地利用资源优势和网络优势,通过商品物流服务各个环节的成本控制实现物流总成本最小化,共同应对市场的挑战,从而有效地将商品和服务销售给全球各地的顾客,实现共赢互利。
有雾  有雾,在桃花潭的早晨  它像一个有着温软躯体的美人  缠住了水,缠住了远处的山和房舍  早起的乌鸣在恍惚中辨认方向  一个在城市中生活得过久的人  她总是无法通过河流曲折的角度  或者山的形状,去认识  去深入,去酣畅地踏歌  此刻,她谨慎地凝视着前方  没有人告诉她  这幅南宋水墨卷轴的正确打开方式  “为什么我要来到这里?”  一叶舟子挣脱美人的缠缚横在水心:  “这不是抵达,而是返回
摘要:当前中国发展环境存在不平衡、不协调、不可持续的问题,地方性科研院所在有限的资源和环境下的发展还要面临国家级大院大所的竞争压力;而我国当前处于经济发展的转型期,国家将科技及创新作为实施驱动发展的核心战略,本文针对地方性科研院所在上述背景下的发展思路问题进行了论述,讨论了如何充分利用自身及周边优势,实现跨越式发展;本文以山东省科学院海洋仪器仪表研究所近10年的跨越式发展的成功之路为例,分析并总结
摘 要:大学核心竞争力的正确识别是培育核心竞争力的前提,也是核心竞争力理论在我国高等教育管理实践中得以有效运用的前提。针对目前存在的对核心竞争力以及相关概念的模糊认识,本文对大学核心竞争力进行了系统性识别,包括核心竞争力的概念识别、关系识别、特性识别及其识别程序。  关键词:核心竞争力 识别 大学    核心竞争力理论起源于对企业持续竞争优势源泉的分析。1990年Prahalad和Hamel在《哈
2009年底,也斯被证实患上癌症,友人和学生得知都很替他担心。也斯接受治疗期间,病情一度好转,虽然时有反复,不过这三年间,也斯仍旧在岭南大学中文系上课,教授写作,指导论文,筹办研讨会,也继续写作和研究,发表学术论文和创作,更出版不少新书,包括散文集《人间滋味》(2011)、诗集《普罗旺斯的汉诗》(2012)、论文集《香港文学与电影》(合编,2011)、《香港文学的承传与转化》(合编,2011)、《
6月9日,由科学中国人杂志社主办的“2011科学中国人(第十届)年度人物颁奖典礼”在京举行,颁奖典礼结束后,2012科学中国人论坛与此同时召开。“科学中国人(原中国科技与经济)论坛”是科学中国人杂志社主办的又一品牌活动,迄今为止已连续成功举办四届,是我国科技、经济、教育界具专业品质和重要影响力的年度盛会,现已成为两院院士、政府高层、商界领袖、科技精英风云际会、高端对话的一大平台。  在本届论坛中,
华夏传统社会的一大弊端,就是封建礼教思想长时间浸淫毒害着鲜活亮丽的女性。极其严酷的专制制度下衍生的神权、君权、父权、夫权,成为禁锢妇女身心健康发展、美好人性释放的罪恶桎梏。直到帝制瓦解坍塌的时代背景下,“五四”新文化运动的震撼爆发,被启蒙、被唤醒的一代青年女性渐渐地走入新文学作家的宏大视野,猛烈地批判压迫妇女、束缚妇女、剥夺妇女社会地位权益的呼声,成为一个时代的强音;“哀其不幸,怒其不争”,则是那
由财团法人台湾文化艺术基金会与文讯杂志社合作共同推动的“2001~2015华文长篇小说20部”票选活动已于日前完成。作为“小说引力:华文国际互联平台”中的首发活动,台湾长篇小说推荐作品的产生是相当慎重的,它先由《文讯》审慎地统计整理出2001~2015年间出版的404部小说资料,提供五位学者专家就此初步筛选出101部作为票选基础,再由各世代作家、学者、编辑、出版专业人士共同投票,循此产生最后的推荐