论文部分内容阅读
随着国际间学术合作的加强和“开放科学”运动的兴起,科研合作与文章合著已逐渐成为现代科学进一步发展的主流趋势。以往评判单一作者科研成果的方法无法较好地体现出现代科研合作中作者的贡献多样性,无法将某作者的贡献与其他合作者区分开来。而科学界中进行工作任命、职称评定或基金授予等重要决策时,其依据基本来源于某学者个人的成果评价,因此如何合理地判定科研文献能否归属于某一作者就显得尤为重要。本文旨在通过引入文献的相对影响力以及通过移除目标论文贡献权重降低给成果所有者带来的稀释效果来改进归属判定分配算法,为解决文章归属问题提供补充解法。科研文献的被引用次数变化趋势包括两类“延迟攀升-缓慢衰减”和“提前攀升-迅速衰减”,因此本文引入非线性函数来将文献影响力与被引用次数相结合,从而表征文献的相对影响力。由于科研文献的归属分配问题并没有统一的识别标准,因此本文选择了目前全世界研究学者都较为认可的国际级奖项诺贝尔奖来验证识别效果,以其中提名与授予标准更加严格的诺贝尔物理学奖文献作为本文的数据验证集。本文以分配算法识别到的成果所有者是否是获得诺奖的作者作为判断标准,根据American Physical Society数据集和Microsoft Academic Graph数据集中检索到的目前最全面的获得诺贝尔物理学奖的相关文献数据,综合对比了目前主流的前沿算法。首先,本文引入了修正后的Sigmoid函数来表征文献的相对影响力大小,通过去除目标论文贡献权重提高了成果所有者与其他作者之间的区分度,降低了该权重带来的稀释效果,在此基础上提出了NCCAS分配算法,接着与目前主流算法CCA、NCCA、DCA以及Co CA分配法对比了识别准确率、识别分辨率,然后进行了鲁棒性测试。并且通过消融实验对比了目标论文贡献对于分配算法识别准确率与分辨率的影响,还探究了对以往科研成果给定不同权重构建作者贡献度矩阵对于分配算法的影响。另外,本文通过对MAG数据集中收录的9个学科领域内(1990年至2009年)大规模文献数据进行成果归属分配,探究大小团队中成果所有者(最高归属分数作者)对应不同学科领域、不同文献发表时间内的相关学术指标的分布情况,同时也探究了不同引文积累窗口长度与文献成果所属的关联关系。研究发现:(1)针对NCCAS分配法,综合上述对比实验发现:本文提出的NCCAS分配法综合表现优于其他主流算法。(2)本文针对MAG数据集中大规模科研文献数据应用分配算法进行计算,对大小团队中的成果所有者相关学术指标进行分析。发现了大小团队中成果所有者对应学术指标的分布情况与日常认知存在差异:(1)相对学术年龄的分布中,大团队内的成果所有者多为合著作者中非年长学者,小团队内则多为最年长学者。(2)作者署名位置的分布中,大小团队的成果所有者没有表现出对第一作者或最后一位作者的偏向性,两者可能性接近,但小团队中第一作者与最后一位作者相比大团队内更有可能成为成果所有者。(3)跨学科领域数量的分布中,大团队内成果所有者更可能是跨学科领域数量非最多的作者,而小团队内则超过50%的可能性是数量最多的作者。(4)发表文献数量的分布中,大小团队内成果所有者多为合著作者中发表文献数量最多的作者。同时成果所有者中年长学者与非年长学者的绝对学术年龄逐渐表现出“学术老龄化”的现象。(3)针对设置不同长度的引文积累时间窗口T,本文对符合筛选条件的科研文献应用归属分配算法后,将(T,T+1)两个引文积累窗口内分配结果中成果所有者不一致的情况定义为颠覆性情况,以此来衡量不同窗口大小与文献成果所属的关联关系。另外,探究不同窗口大小下相关学术指标分布是否仍然遵循(2)中的规律。结果发现:在不同引文窗口大小的情况下,颠覆性情况占比较小,且同时随着引文积累窗口的增大而减小。当窗口T≥7时,该占比几乎趋近于0;同时在不同窗口大小下,成果所有者对应的相关学术指标在总体分布和变化趋势上仍保持一致,但具体的区间占比会受到引文窗口大小的影响。综上所述,本文通过引入文献相对影响力并移除目标论文贡献权重构建的归属判定分配算法NCCAS,能够为高影响力(以诺贝尔物理学奖文献作为数据验证集)和普通的学术文献合理分配成果归属。同时,根据普通学术文献分配结果,发现了大小团队内成果所有者对应学术指标分布的规律性,且这种分布不受分配算法、学科领域、文献发表时间、引文积累窗口长度的变化影响,也在对应的学术指标分布的变化趋势中发现了“学术老龄化”的现象,对我国未来人才引进以及科研工作开展具有参考意义。