论文部分内容阅读
引文分析作为一种重要的科学计量方法,对研究科学结构和科学发展史是不可缺少的有效手段。引文分析中的引文时序网络研究通过研究文献中引证事项的时间序列及联系,可以鉴别出有关某一专题学科的重要文献,探明某个研究主题的论文源流、最初著者以及该研究主题发展的来龙去脉,展现某项目或事件的发生和发展,揭示某思想或方法的改善、扩充和修正等。引文分析中的同被引分析可以划定科学家群体,展示学科领域和不同的研究方向,揭示学科的产生背景、发展概貌和突破性成就,从而揭示科学的动态结构和某些发展规律。这种方法把对浩瀚的文献内容分析转化为引文数量关系的统计和判断,避开了人的知识、经验、记忆、可用文献的恰当性等主观因素,对科技史研究而言,特别是在研究某一学科或某一专题的发展历史时,在一定程度上它可以弥补一些科技史研究人员在专业素质上的欠缺,使科学史的研究更加“科学”、“精确”和客观。
目前,由信息可视化技术和引文分析相结合而成的可视化引文分析用于研究科技史和科学领域结构在国外是一个研究热点,但我国在这方面的研究开展很少。本文应用引文分析的理论和方法,结合现代信息可视化技术,以25年来国内外杂交水稻育种研究为例,探索了可视化引文分析应用于我国科技史研究的方法、步骤和技术,并就其适用性和可信度进行了探讨和验证。具体来说,主要进行了以下几方面的探索研究:
(1)分析介绍了引文分析的起源与发展及其与SCI和JCR的关系,系统阐述了引文数量分析、引文时序网络分析、引文主题内容相关分析这三大不同的引文分析类型各自的分析内容及其各自的应用;对我国引文分析研究的发展现状进行了总结,认为与国外相比,我国的引文分析研究总体上处于初级阶段,并就造成这一现状的原因进行了分析探讨;对作为本研究数据源的国内几个引文数据库的功能和特点进行了对比分析。
(2)概述了可视化引文分析及应用在国外的研究进展情况。国外可视化分析的研究热点主要集中于通过引文时序网络分析,追踪代表科学研究重要事件的文献的先后引用顺序,从而探明某个研究主题的论文源流、最初著者以及该研究主题发展的来龙去脉,描述科学事件的发生发展;通过文献同被引、著者同被引、类目同被引、期刊引用等分析文献之间、著者之间、类目之间、期刊之间等所代表的主题内容之间的相关性并生成学科知识图,揭示学科领域发展状况;对国外应用较多但国内还鲜为人知的几个可用于可视化引文分析的软件,如Pajek、UCINET、VxInsight、KNOT、IN-SPIRE等进行了介绍,分析讨论了可视化引文分析中生成的图形的种类及其优缺点:探讨了适用于科技史研究的引文分析的类型,对可视化引文分析应用于科技史研究的实践进行了重点的分析介绍。
(3)在总结国外引文时序网络分析应用于科技史研究的经验的基础上,分别从SCI和清华同方的《中国引文数据库》中套录有关杂交水稻育种研究的文献及它们的引文数据,导入自建的数据库中,构建出国际和国内的杂交水稻育种研究引文编年图,显示其中代表杂交水稻育种研究学科发展关键事件的文献,并就它们的关系和引用序列进行分析,梳理出杂交水稻在这段时间内的纵向的发展历史,最后与从事杂交水稻育种研究的专家的意见进行对比,确定了引文时序网络分析应用于科技史编年研究的可靠性。
(4)对国外可视化同被引分析构建学科知识图的各种方法和关键技术进行了总结和对比分析。利用国内的引文数据库,以我国近25年来关于杂交水稻研究的文献引文数据为研究素材,采用三种不同原始同被引频次获得方法获得著者之间的同被引频次,分别是:计算著者之间的同被引频次时,把作为合著者时的同被引频次也计算在内;在整个引文数据库范围内只计作为第一著者的同被引频次;根据学科范围内的来源文献和它们引用的参考文献集合,重新计算各著者的被引频次及相互间的同被引频次。这样构造出三个著者同被引数据矩阵。利用寻径网络(PFNET)技术,对这三个不同的数据矩阵进行分析,生成三副国内关于杂交水稻研究的学科知识图,根据这些图分析我国杂交水稻研究的主流科学家群体,以及他们所代表的我国杂交水稻的研究方向。对这三副学科知识图的差别及形成原因进行了对比分析,从实证的角度证明了这种由不同数据统计方法所造成的差别的存在。利用来自SCI的引文数据采取第三种方法构造同被引矩阵最终生成国际杂交水稻育种的学科知识图,与国内杂交水稻育种研究学科知识图进行对比后认为,如果单纯从同被引的角度考虑,那么引文数据库的收录范围越大将越有利于分析结果的客观性和准确性。为了了解25年来国内杂交水稻育种研究内容随时间而发生的变化,本文又以文献同被引聚类结合文献的时间分布图,分析展示了近25年来国内杂交水稻育种研究领域研究方向的发展变化,可以概括为:从主要关注水稻的产量到同时关注品质与产量,强调优质育种,进而应用分子手段和技术提高育种效果和效率这么一个过程。
虽然在实际中还存在一些影响引文数据准确性的因素,例如一些文献中的非正常引文、虚假引文等,但随着知识产权保护意识的普遍提高,引文作为标准的科学规范被普遍接受,同时各种计量手段和措施得到进一步的完善,可视化引文分析作为一种新型的科学计量方法,在科技史研究中必将发挥越来越重要的作用。本论文的主要创新点表现在:
(1)国内首次对可视化引文分析,特别是可视化同被引分析的步骤及各种关键技术进行了对比分析,对相关的可视化软件的优缺点和可用性进行了探讨,为国内开展可视化引文分析研究提供了参考和线索。
(2)首次系统总结了适用于科技史研究的可视化引文分析的类型和方法,首次以中文文献和引文作为源数据,对引文网络从纵向(时序)和横向(结构)尽行可视化分析,运用引文编年图和学科知识图对国内有关杂交水稻育种研究的历史进行展示.这是我国科技史研究新方法的一次有益的尝试。
(3)最早介绍引进引文编年可视化软件,为近现代中国科技史特别是专业学科史研究提供了一套识别关键事件的编年排列、事件之间的关系和相对重要性的工具。
(4)系国内首次采用可视性较强的PFNET算法和技术进行著者同被引分析构建专题学科知识图,并通过三种方式获得著者同被引数据,一种是把作为合著者时的同被引频次也计算在内,另外一种是只计算作为第一著者的同被引频次,第三种是根据学科范围内的来源文献和它们引用的参考文献集合,重新计算各著者的被引频次及相互问的同被引频次,对由这三种不同的数据统计方法获得的学科知识图的差别进行了对比分析,从实证的角度证明这了三种数据统计方法所造成的差别的存在,为以后的同被引分析提供了借鉴。