软件实体的自动抽取和学术影响力研究

来源 :南京大学 | 被引量 : 1次 | 上传用户:hongyu203311
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
软件对科学研究来说非常重要,它被用于科学研究的诸多方面,如流程控制、数据处理、结果分析和知识传播等。在这一点上,学者们已有共识。但是软件常常被认为是科学家研究成果的附属产品,而不是体现科学家价值的正式研究成果。在目前以出版物为主体的科研评价体系中,软件的科研价值长久以来被低估甚至被忽略。事实上,一些科学家花了相当多的时间和精力在软件开发上,他们将这些软件共享出来,为同行带了很多益处。这些科学家希望了解自己的软件所产生的影响。此外,科研资助机构也希望了解自己资助的软件所产生的影响,他们依据软件影响力来测度科研投资所产生的效益,进而决定是否对该软件项目追加投资。因此,有必要研究软件的影响力:一方面可以满足科研软件开发者和科研资助机构的需求,另一方也可以让政策制定者更为清晰地了解软件的价值,为有关部门将建立更为透明、开放、包容的科研奖励体系提供数据支撑。但是目前学术界对软件影响力的研究还比较少。本文以软件的学术影响力研究为切入点,在此基础上延伸至图情领域科研人员的软件使用和引用行为分析,并尝试找出影响科研人员引用行为的因素,进而给出了规范化软件使用和引用的一些建议。本文首先介绍了软件影响力研究的研究背景,阐述了软件影响力研究的意义,进而提出研究问题,并给出总体研究步骤和技术路线。接着本文从实体抽取研究、科学数据的共享和引用研究以及软件的开发、共享、使用和影响力评价研究三个方面对与本研究相关的文献进行系统全面的综述。其中实体抽取研究部分在概述了信息抽取概念和发展史之后,对实体抽取和命名实体识别的概念进行界定,然后分别对基于规则的实体抽取研究现状、基于机器学习的实体抽取研究现状和混合型实体抽取研究现状进行了综述,并阐述了本文选择基于规则的自扩展的实体抽取方法的原因。由于科学数据与科研软件在学术论文中的地位相当,科学数据的共享和引用研究对软件的影响力研究有着很好的参考价值,所以本文对科学数据的共享和引用研究现状也进行了综述。此外,本文依据软件在科学研究中的过程模型框架从科学家开发和共享软件以及软件获得使用进而产生学术影响的角度挖掘免费科研软件的相关研究。然后,本文从软件实体自动抽取算法设计、软件学术影响力研究、图书情报学领域中的软件实体及其影响力研究三个部分进行论述。其中,软件学术影响力研究以及图书情报学领域中的软件实体及其影响力研究都以提出的软件实体自动抽取算法从全文本数据中抽取出的软件实体为研究对象,图书情报学领域中的软件实体及其影响力研究对软件学术影响力研究中做的一些假设和得出一些结论进行了验证,其发现的影响软件获得正式引用的影响因素为推动规范化软件引用行为提供有益参考。本文第三章提出了一个基于全文本的自适应的软件实体抽取算法。只需要输入少许软件实体种子词和待抽取的文本数据,本算法就可以从全文本数据中自动抽取出软件实体。随后,依据该算法构建并实现软件实体自动抽取系统,在此基础上利用测试数据集对实现的软件实体自动抽取系统的性能进行测试:PLOS ONE上的386篇论文全文数据作为测试数据集,人工对测试集的标注结果作为黄金标准(Gold Standard),犹他州大学的Basilisk实体抽取算法、纽约大学的NOMEN实体抽取算法和斯坦福大学的SPIED算法作为参照算法,准确率、召回率和调和平均值作为评测指标,评测结果表明本文提出的实体抽取算法的性能要优于参照算法。本文第四章先利用实现的软件实体自动抽取系统从综合性开源期刊PLOS ONE的9000多篇论文文本数据中自动抽取出软件实体,再对识别出来的同义不同型的软件实体进行合并。然后根据人工对测试集的标引结果制定软件使用和引用的统计规则,并依据该规则编写计算机程序。接着利用编好的计算机程序统计各个软件在论文层、学科层获得的提及次数和引用次数。最后对统计结果进行研究分析。本章研究发现:软件被广泛用于科学研究;软件使用和引用存在学科差异;软件引用缺失严重,用软件使用次数比用软件被引次数来测度软件学术影响力更为合适。本文第五章针对上文的基于自动化的软件识别方法和统计方法能够获得的软件使用和引用特征较少的不足,提出基于人工的软件识别和内容分析方法获得更多的软件使用和引用特征,以弥补上文研究的不足。此外,本章的研究也对第三章的一些假设和第四章的一些研究结果进行了验证。本章先以图书情报学领域的11种核心期刊为样本来源,用随机数生成器产生随机数完成对期刊论文的抽样。再根据研究目标和研究主题建立分析类目和量化系统,在此基础之上进行内容编码操作。最后对编码结果进行统计分析,进而得出研究结果并对研究结果进行分析讨论。本章的研究结果证实了软件的引用标识多出现在软件名称之后的子字符串中,还证实了绝大部分科研人员只有在论文中使用了软件才会在论文中提及软件名称。此外,本章研究还发现:图书情报学领域学者的软件使用和引用行为并不规范;在LIS领域,软件引用缺失同样严重;软件创建者在软件网站上提供的软件引用线索会给软件带来更多的引用。本研究是探索分析软件属性和软件引用的众多努力中的一份,它除了能够为构建合理的软件评价体系等后续研究奠定基础和为研究其他非出版物形式的研究成果提供参考外,还在完善科研奖励体系、深化信息计量分析和细化知识传播分析等方面有着重要意义。本文的主要贡献在于:(1)本文提出的基于全文本的自适应的抽取算法能够以较好的性能从期刊论文文本数据中自动抽取出软件实体,用该算法实现自动化识别科技文献中的软件实体,弥补了以往同类研究局限于少数实体、个别领域的不足;(2)本文用软件在学术论文全文中获得的提及次数来量化软件的影响力,将为政策制定者将软件纳入科研评价体系中提供非常有力数据支撑;(3)本文从软件使用的角度去测度软件的学术影响力、去揭示信息运动和科学交流的规律,这将使知识传播研究细化到实体级,也将使信息计量学研究从文献单元深入到知识单元。
其他文献
加强操作和管理是提高出米率的重要途径,提出了采取控制原粮精心操作,科学管理的措施,以达到提高出米率的目的。
确保农村贫困人口全部脱贫,同全国人民一道进入全面小康社会是党的庄严承诺。中国共产党自成立以来,就十分重视农村扶贫。尤其是改革开放以来,中国共产党将农村扶贫作为重要
酒精滥用是一项世界范围高致残率和致死率的严重健康问题。肝脏不仅是机体负责代谢酒精的重要器官,也同时是受酒精毒害的主要靶点。肝细胞线粒体中的ALDH2是酒精代谢的重要一
氮化镓(Gallium Nitride,GaN)功率器件开关速度快,能够在高频条件下工作,将逐渐替代传统功率器件应用到桥式电源系统。在桥式电源系统中,由于GaN器件寄生电感在电流转换时引
<正> 拿取方便、节省时间、效果立见、价格便宜——这些是现今消费者对头发产品的要求。而发用类产品工业也朝这些方向推出一系列吸引人的革命性产品。头发保养品市场吹起了
随着经济的发展,我国税收改革取得了一定的成效,由于纳税人意识逐渐提高,税收法律制度不够完善,在税收征管实践中,纳税人和税务机关对法律规定理解不一致,税务纠纷日益增加。在司法实践中,不同司法机关对税务纠纷的处理方式也不同。Z石油公司诉S区国税局行政处罚案、Y煤业公司诉Y市国税局行政处罚案、D纺织公司诉G县国税局行政处罚案、C建材公司诉T市国税局行政处罚案、M医药公司诉J市国税稽查局行政处罚案就是五起
<正>米非司酮对正常妇女的垂体促性腺系统、卵巢、子宫内膜功能均有影响。下面介绍几种其生物学作用及临床应用。1早期药物流产米非司酮是一种新型抗孕酮药物,同时具有抗糖皮
注意是人类信息加工过程中一项重要的心理调节机制,它能够对有限的信息资源进行加工分配,使感知具备一定的选择能力。人类视觉系统这种在面对复杂场景时,能够迅速将注意力集中
近年来PPP模式(Public-Private Partnership)已逐渐成为我国基础设施主要供给模式之一。通过政府和社会资本方之间合理的风险分担,PPP模式可以充分利用社会资本方的技术和资
<正> 蜘蛛是属于蛛形纲蜘蛛目的节肢动物的总称。全世界约有2万种以上。蜘蛛身体分为头胸部和腹部。头胸部背面前端常有6~8个单眼,单眼能够感知光线的强弱。头胸部腹面有6对附