论文部分内容阅读
软件对科学研究来说非常重要,它被用于科学研究的诸多方面,如流程控制、数据处理、结果分析和知识传播等。在这一点上,学者们已有共识。但是软件常常被认为是科学家研究成果的附属产品,而不是体现科学家价值的正式研究成果。在目前以出版物为主体的科研评价体系中,软件的科研价值长久以来被低估甚至被忽略。事实上,一些科学家花了相当多的时间和精力在软件开发上,他们将这些软件共享出来,为同行带了很多益处。这些科学家希望了解自己的软件所产生的影响。此外,科研资助机构也希望了解自己资助的软件所产生的影响,他们依据软件影响力来测度科研投资所产生的效益,进而决定是否对该软件项目追加投资。因此,有必要研究软件的影响力:一方面可以满足科研软件开发者和科研资助机构的需求,另一方也可以让政策制定者更为清晰地了解软件的价值,为有关部门将建立更为透明、开放、包容的科研奖励体系提供数据支撑。但是目前学术界对软件影响力的研究还比较少。本文以软件的学术影响力研究为切入点,在此基础上延伸至图情领域科研人员的软件使用和引用行为分析,并尝试找出影响科研人员引用行为的因素,进而给出了规范化软件使用和引用的一些建议。本文首先介绍了软件影响力研究的研究背景,阐述了软件影响力研究的意义,进而提出研究问题,并给出总体研究步骤和技术路线。接着本文从实体抽取研究、科学数据的共享和引用研究以及软件的开发、共享、使用和影响力评价研究三个方面对与本研究相关的文献进行系统全面的综述。其中实体抽取研究部分在概述了信息抽取概念和发展史之后,对实体抽取和命名实体识别的概念进行界定,然后分别对基于规则的实体抽取研究现状、基于机器学习的实体抽取研究现状和混合型实体抽取研究现状进行了综述,并阐述了本文选择基于规则的自扩展的实体抽取方法的原因。由于科学数据与科研软件在学术论文中的地位相当,科学数据的共享和引用研究对软件的影响力研究有着很好的参考价值,所以本文对科学数据的共享和引用研究现状也进行了综述。此外,本文依据软件在科学研究中的过程模型框架从科学家开发和共享软件以及软件获得使用进而产生学术影响的角度挖掘免费科研软件的相关研究。然后,本文从软件实体自动抽取算法设计、软件学术影响力研究、图书情报学领域中的软件实体及其影响力研究三个部分进行论述。其中,软件学术影响力研究以及图书情报学领域中的软件实体及其影响力研究都以提出的软件实体自动抽取算法从全文本数据中抽取出的软件实体为研究对象,图书情报学领域中的软件实体及其影响力研究对软件学术影响力研究中做的一些假设和得出一些结论进行了验证,其发现的影响软件获得正式引用的影响因素为推动规范化软件引用行为提供有益参考。本文第三章提出了一个基于全文本的自适应的软件实体抽取算法。只需要输入少许软件实体种子词和待抽取的文本数据,本算法就可以从全文本数据中自动抽取出软件实体。随后,依据该算法构建并实现软件实体自动抽取系统,在此基础上利用测试数据集对实现的软件实体自动抽取系统的性能进行测试:PLOS ONE上的386篇论文全文数据作为测试数据集,人工对测试集的标注结果作为黄金标准(Gold Standard),犹他州大学的Basilisk实体抽取算法、纽约大学的NOMEN实体抽取算法和斯坦福大学的SPIED算法作为参照算法,准确率、召回率和调和平均值作为评测指标,评测结果表明本文提出的实体抽取算法的性能要优于参照算法。本文第四章先利用实现的软件实体自动抽取系统从综合性开源期刊PLOS ONE的9000多篇论文文本数据中自动抽取出软件实体,再对识别出来的同义不同型的软件实体进行合并。然后根据人工对测试集的标引结果制定软件使用和引用的统计规则,并依据该规则编写计算机程序。接着利用编好的计算机程序统计各个软件在论文层、学科层获得的提及次数和引用次数。最后对统计结果进行研究分析。本章研究发现:软件被广泛用于科学研究;软件使用和引用存在学科差异;软件引用缺失严重,用软件使用次数比用软件被引次数来测度软件学术影响力更为合适。本文第五章针对上文的基于自动化的软件识别方法和统计方法能够获得的软件使用和引用特征较少的不足,提出基于人工的软件识别和内容分析方法获得更多的软件使用和引用特征,以弥补上文研究的不足。此外,本章的研究也对第三章的一些假设和第四章的一些研究结果进行了验证。本章先以图书情报学领域的11种核心期刊为样本来源,用随机数生成器产生随机数完成对期刊论文的抽样。再根据研究目标和研究主题建立分析类目和量化系统,在此基础之上进行内容编码操作。最后对编码结果进行统计分析,进而得出研究结果并对研究结果进行分析讨论。本章的研究结果证实了软件的引用标识多出现在软件名称之后的子字符串中,还证实了绝大部分科研人员只有在论文中使用了软件才会在论文中提及软件名称。此外,本章研究还发现:图书情报学领域学者的软件使用和引用行为并不规范;在LIS领域,软件引用缺失同样严重;软件创建者在软件网站上提供的软件引用线索会给软件带来更多的引用。本研究是探索分析软件属性和软件引用的众多努力中的一份,它除了能够为构建合理的软件评价体系等后续研究奠定基础和为研究其他非出版物形式的研究成果提供参考外,还在完善科研奖励体系、深化信息计量分析和细化知识传播分析等方面有着重要意义。本文的主要贡献在于:(1)本文提出的基于全文本的自适应的抽取算法能够以较好的性能从期刊论文文本数据中自动抽取出软件实体,用该算法实现自动化识别科技文献中的软件实体,弥补了以往同类研究局限于少数实体、个别领域的不足;(2)本文用软件在学术论文全文中获得的提及次数来量化软件的影响力,将为政策制定者将软件纳入科研评价体系中提供非常有力数据支撑;(3)本文从软件使用的角度去测度软件的学术影响力、去揭示信息运动和科学交流的规律,这将使知识传播研究细化到实体级,也将使信息计量学研究从文献单元深入到知识单元。