基于Pubpeer的学术预警研究

来源 :现代情报 | 被引量 : 0次 | 上传用户:elfer_hfut
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  关键词:学术预警;学术风险;学术不端;Pubpeer
  学术论文的发表并不意味着某项研究的圆满结束,相反它在某种程度上仅仅代表着这项研究的开始,有些论文或多或少存在着一些问题,随着论文刊载公布于整个学术界,这些问题将会被逐渐发现,也会引发不同程度的质疑。存在的问题是多方面的:有些研究出现问题是由于科研本身的复杂性,程序性的错误,实验环境条件的问题,是客观原因造成的;而有些问题则是作者主观上的诚信问题,科研诚信的丧失[1-2]。在学术不端方面表现出的问题尤为突出[3-5],国家也出台一系列重量级文件严惩学术不端[6-8],要求预防与惩治并举,自律与监督并重,文件明确指出建立健全学术预警制度。学术界长期以来缺乏有效的预警机制来及时发现问题,解决问题。
  正如默顿在《科学的规范结构》[9]中强调科学内容的客观性以及有条理的怀疑。作者不应在论文中呈现欺诈的研究,同时要重视有条理的怀疑。因此建立合适的学术预警机制是必要的。学术预警是指对作者可能存在的学术风险进行预警,根据侦测到的信息,向作者、期刊、机构等发出预警信号,使其认识到研究结果的不完善性,进而挖掘出科研实践中存在的科研诚信或是科研条件导致的具体问题,保障科学研究的有序正确进行,进行知识和理论的创新。学术风险既包括学术不端这种主观上的科研诚信丧失,也包括如实验条件这种客观原因等。
  以往科技评价方式[10-15]注重正向评价作者学术贡献,而忽视了指出论文中所存在的学术风险以及引发的质疑。作为出版后同行评议论坛,Pubpeer(https://pubpeer.com/)为指出论文存在的问题提供了有效平台[16],只要学者拥有Pubpeer账号,都可以对已发表论文进行质疑,质疑内容包括与实际情况有出入、抄袭、剽窃、数据错误等。申请Pubpeer账号需要有以第一作者或通讯作者身份发表的论文,并且该论文被PubMed期刊资料库收录,这就保证了不具备一定学术能力的人是无权发表评论的(指出论文中的问题),而且指出问题的评论只有经过审查后才能发出。Couzin-FrankelJ在Science期刊上发表的论文指出Pubpeer这个网站成为一个标记问题的地方[17]。评论者已经促使许多论文更正和撤回。该网站已经成为一个有影响力的渠道,用来识别有缺陷的,甚至是欺诈性的研究。BordignonF在Scientometrics发表的论文指出Pub?peer有利于发现问题,实现科学的自我纠正[18]。
  本研究基于出版后同行評议论坛Pubpeer进行学术预警。首先是数据监测,预警系统需要监测作者的论文是否引发质疑,在本研究中使Pubpeer作为监测数据源。其次便是如何评估作者的风险维度与等级,可以从以往的正向学术评价方法中得到启示。比如在以往评价方式中会基于发表论文数量来评估一位作者,在本研究中也需要首先监测作者的存疑论文数(存在问题的论文数量);论文所发表期刊的被引次数可以用于论文的价值评估,本文则采用存疑程度来表示一篇论文存在问题的程度等。评价作者的成就时往往将作者分成不同层次,学术预警也将综合考虑多维度的风险情况,进行综合分析最后得到预警指数,依据预警指数的高低来发布学术预警以提醒作者。本研究可以有效识别作者的学术风险,进行分析量化,并发出警告,使作者认识到存在的问题,及时进行解释说明以及纠正,有助于创造良好的学术氛围,解决论文发表后包括学术不端在内的引发的各类疑问。
  1研究对象与数据
  1.1研究对象
  针对拥有存疑论文的作者构建预警方法,基于Pubpeer论坛存疑论文获取包含学术风险的数据并加以处理。本研究从Pubpeer中获取到1万篇存疑论文,排除了未标明作者的论文,构建数据集作为研究对象。Pubpeer上的存疑论文主要集中于技术科学中的生物医学等领域。表1显示了存疑论文所属期刊前5的情况。
  PubMed是一个检索生物医学领域的论文数据库,它的数据来源为MEDLINE。其核心主题为医学,但亦辐射其他相关研究领域。研究发现获取的存疑论文所属期刊包括前5名在内都为PubMed收录期刊或生物医学领域相关期刊,研究主题集中于生物医学相关内容。
  1.2存疑论文分析
  如图1所示,对获取到的被评论、存疑的论文进行分析。其中存疑论文指被评论指出问题的论文,存疑程度即论文被评论的次数也就是被指出各种问题的次数。存疑论文数量和论文的存疑程度逐年增加,尤其是从2015年后呈现出爆发式增长。2015—2019年存疑论文数每两年增长约100%,存疑论文的存疑程度总数增量迅猛。2020年前9个月增加的存疑论文数已经与2019年整年的情况基本持平。从图1展现的趋势可以看出,学术界论文存疑的整体情况不容乐观,科学研究的整体性风险在急剧攀升。
  1.3存疑作者分析
  如图2所示,有1篇论文存疑的作者占比总存疑作者数量的89%,有2篇论文存疑的作者占比7%,作者数占比随着存疑论文数增加而锐减,存疑论文数为6~10,以及存疑论文数大于10的作者占比均不到1%。这说明绝大多数的作者存疑论文数非常小,只有极少数作者的存疑论文数能够达到5篇以上,作者在存疑论文数极低时分布非常分散,在存疑论文数较高时分布较为集中,能有多篇存疑论文的作者是极少数。尽管如此,即使是只有1篇论文为别人所质疑的情况也是值得论文作者警惕的,这可能涉及科学研究各个方面的问题,值得作者重视和反思。
  图2有利于识别需重点关注的作者,本研究中作者的情况差别极为悬殊,绝大多数作者存疑论文基本只有1篇,能达到3篇以上的作者非常少,这也说明大部分作者在Pubpeer上存疑论文的问题可能集中于某个点,而少数的作者可能存在较多的问题。
  2学术预警指标构建
  构建学术预警指标来衡量科研人员的学术活动风险情况,难点在于应考虑哪些维度,在某个维度下以何种形式进行量化评估。以往的评价中有着较为成熟的指标体系,可以进行借鉴。为了更好地开展学术预警研究,本研究映射已有的学术评价方法指标体系于学术预警任务指标的构建,本文对相关概念进行映射,如图3所示。   传统评价体系中的指标是映射中的原像,本研究所构建的预警指标是映射中的像。传统评价是基于引用,但引用有很大的不确定性,比如A论文中引用B论文,是正面引用还是反引?有没有滥竽充数的引用,甚至是因为人情世故而进行引用。而学术预警指标是基于评论,评论是确定的,评论是有资质的学者发表后经过审核的,言之凿凿地提出问题,例如论文存在与实际情况不符、剽窃、抄袭和不规范等。
  2.1存疑数量预警指标
  2.1.1存疑论文数量指标
  在以往评价科研人员或者在进行职称评定时首先会考虑该作者发表论文数量,然后再考虑其他方面因素。在进行预警时也是首先考虑作者的存疑论文数量。
  2.1.2论文存疑程度指标
  在衡量论文的价值时常常会考虑这篇论文的被引次数,同样在考虑被指出问题的论文所存在的风险时,需要考虑存疑程度即论文被评论的次数,也就是被指出各种问题的次数。
  如图4对存疑论文的存疑程度进行统计可以发现:大部分存疑论文的存疑程度基本为1或2,存疑程度能达到5以上的论文占存疑论文总数的9%,对存疑论文按照存疑程度降序排列便可看到论文的存疑程度从1~285,存疑程度间距极大,也就是被指出问题次数最多的论文曾被评论285次,如表2所示,单篇论文如此大的存疑程度其背后必然有深层的原因,这样的研究成果如果被应用,风险不可忽视,特别是在生物医学领域,这样的研究如果被采纳使用,可能会引发严重问题。因此将单篇最大存疑程度纳入考量范围。
  2.2融合存疑程度的预警指标
  从存疑论文数和论文的存疑程度这两个主要方面混合衡量量化风险没有直接可用的研究方法,但可以从以往的正向评价方法中得到启示。学术界衡量作者的学术成就一般采用H指数[19]。H指数表示作者至多有H篇文章至少被引H次,这种研究方法可以应用于作者的存疑论文数与存疑程度两者的融合。定义:混合指数1=作者至多有n篇论文的存疑程度至少为n。例如某位作者的混合指数为7,则这位作者至多有7篇论文的存疑程度至少为7。
  混合指数1对存疑论文数与存疑程度进行了融合考量,它偏向于整体考量这两个因素,但混合指数1没有突出显示存疑程度较高论文的情况。正向评价一位作者的高被引论文的情况,通常使用G指数[20]在混合衡量中突出高被引的情况。在本研究中从G指数中得到启发,为更好地考虑存疑论文中存疑程度较高论文的情况,定义:混合指数2=作者的存疑论文按被存疑程度平方排序相对排前的累積总数至少n2的最大论文序次n。混合指数2便于识别作者论文的存疑程度差别悬殊时考虑存疑程度较高论文的情况。
  2.3融合时间因素的预警指标
  对可能存在的学术风险进行监测,不仅需要考虑作者的学术生涯整体情况,更需着重考虑近几年的发展情况,尤其是近几年与其过往较长时间的对比,了解作者的研究发展态势。以便从近几年发展的情况来衡量作者的学术风险。从年份考虑,衡量一位作者的方式可以从存疑论文数与论文存疑程度这两方面入手来表示其在某个时间段的风险性。使作者最近的时间段的学术风险与过去较长一段时间的情况进行对比,所选取的最近时间段不能太短,否则便因为选取的范围过窄,提高了偶然性,不能较好地考虑最近时间段的一惯表现,时间段也不能过长,否则便不能突出近期时间段,所以选取2018—2020年3年时间段与2018年之前这个长时间段进行对比。定义:
  其中限定a b=1,本研究中取a=0.5,b=0.5。其中,X1为最近3年年均存疑论文数,X2为2018年之前年均存疑论文数;Y1为最近3年存疑论文篇均存疑程度;Y2为2018年之前存疑论文篇均存疑程度。
  设置近年趋势指数有其必要性,比如某位作者虽然以前很长时间并没有什么学术风险,但最近产生了很多风险,那么近年趋势指数会非常高,突出这一趋势。如果有作者虽然以前较长时间存在较大学术风险,但近年来注意各方面问题,及时纠正问题,那么近年趋势指数会很低甚至为0。
  3实证研究
  3.1数据分析
  对Pubpeer上出现的存疑论文作者,计算其存疑论文数,单篇最大存疑程度,混合指标1,混合指标2,近年趋势指数,篇均存疑程度,如表3所示,表中展示按存疑论文数排序前11位作者各项指标。
  各项指标从不同维度显示了作者存在的学术风险情况,量的方面依赖于存疑论文数,有多少篇论文被指出问题;质的方面依赖于单篇最大存疑程度。混合指数1,侧重综合考察作者一贯情况;混合指数2,侧重考察作者存疑程度较高论文的整体情况。使用近年趋势指数来考察作者近3年的趋势。
  如图5将表3中的存疑论文数,混合指数1,混合指数2,以折线图呈现,图5显示存疑论文数下降,而混合指数1,混合指数2则上下波动变化,这说明这两个指数与存疑论文数没有绝对的关联,即存疑论文数多也不代表混合指数就大;而且混合指数1与混合指数2曲线变化趋势也不尽相同,说明这两个指数侧重点不同,二者具有差异性。图5反映出有着各项指标的独特性。
  Xu、Liao和Nazari3位作者从存疑论文数看存在依次递减的关系。表4查看3位作者2004—2020年的存疑论文数与存疑程度的情况,Nazari近几年已经没有存疑论文;Xu近几年虽有存疑论文,但与之前较长时间相比,近几年有很明显下降趋势;而Liao近几年存疑论文数处在较高水平,同时存疑程度也很高。显然能够看出近3年来,潜在的风险的趋势最高的是Liao。Xu、Liao、Nazari三者的近年趋势指数分别为0.35、1.28、0。存疑论文数较多并不代表近年学术风险就高,通过近年趋势指数很好地反映了近年趋势情况。在衡量学术风险时近年趋势是需要着重考察的一个方面。
  3.2学术预警指数
  上述研究显示进行学术预警需要从多维度进行综合考虑。数量角度的指标存疑论文数和论文存疑程度;融合角度的指标混合指数1与混合指数2;时间角度的指标近年趋势指数,这些指标各有侧重,综合考虑这些维度的指标是必要的。为了评估一位作者存在的学术风险,本研究提出学术预警指数来刻画作者学术风险,以此对作者进行预警。学术预警指数定义为:   其中wi是第i位作者的学术预警指数;Roundup为向上取整函数;Normalization为归一化函数,xi1、xi2、xi3、xi4、xi5分别为第i位作者的存疑论文数,混合指数1,混合指数2,单篇最大质疑程度,近年趋势指数。
  在进行归一化时xi1、xi2、xi3、xi4前4项按照常见的MAX-MIN方法进行归一。xi1、xi3、xi4这3项指标的MAX并非选取该项指标所有作者中的最大值而是选取第6项值,每项指标前5项与其他作者差别过于显著,相距太大,前5项按满值计算。Normlization(xi5)在0~2时直接取值xi5,近年趋势指数本身就代表了与往年相比近年趋势程度,大于2时xi5按满值计算,大于2意味着与往年相比已经翻倍。
  5项指标均归一到0~2区间而不是0~1区间,主要是为了与近年趋势指数相衔接,所有指标等权重。即最终的预警指数分为十级(0~10),预警指数0代表基本没有风险,预警指数10代表系统性学术风险最高。
  如表5学术预警指数综合了各个方面,体现了一位作者的整体学术风险。通过预警指数的对比很容易看出不同的作者面临何种学术风险,发布预警值以便对作者进行提醒。
  考量预警指数较高的作者所属国家情况,对预警指数前10的作者进行统计发现:中国7位,沙特阿拉伯、加拿大、土耳其、法国各1位。预警指数前10的作者中中国占64%。如图6所示,预警指数前100名中:中国58位,美国9位,印度5位,意大利5位,其余国家均小于5位。中国占58%。由此可见,在预警指数较高的作者中过半数为中国作者,中国作者的整体性风险最高,并且远远高于其他国家,显示了我国学术界存在的风险之高,亟待解决。
  通过作者的国家分布情况发现,相比于其他国家,中国在学术风险方面问题尤为严重,但不同作者的风险程度又有很大区别,具体情况不一,由此突出重点人群至关重要,这就需要抓住风险较高的作者,并及时发布预警。对风险极高的作者及时预警,列为重点关注对象。表6显示了中国学术预警指数排名前10位。不仅能够重点关注高风险作者,而且可以通过具体的各项数值看到作者在哪些方面的问题严重。
  4讨论与结论
  本文通过出版后同行评议论坛Pubpeer侦测识别可能的学术风险,基于已有学术评价体系进行概念映射,构建学术预警指标。对侦测到的不同维度的数据进行分析和量化处理,综合各个维度指标提出作者学术预警指数。学术预警指数的提出可以有效地对作者总体的学术风险进行评估,对作者的学术行为起到警示和规范作用,完善当前的学术评价体系。
  4.1学术预警应用前景
  2015年以后,存疑论文数目显示出了极高的增长速度,几乎每两年就会翻倍,这很大程度上代表着潜在学术不端风险的急剧增加。存疑论文不一定百分百有学术不端問题,但存疑论文肯定存在或多或少的学术不端风险,否则不会凭空出现在Pubpeer上。Pubpeer是为有资质的学者提供平台,针对已经刊载在各类期刊上的论文提出质疑,并经过审核后才能发布。存疑论文的泛滥说明整个学术界的学术诚信与基本道德水平不容乐观,学术生态的恶化,也进一步凸显了发布预警的紧迫性。
  现有的Pubpeer平台对于中国学术环境也是有很好的监督作用,可以弄清作者的风险程度,关注重点人群,以及风险主要在哪些方面等。采用有效的机制和方法利用Pubpeer平台对中国学术环境进行监督,也能够有效保护中国学术环境的良好氛围。
  4.2学术预警平台建设的必要性
  通过本文以上研究可以发现,Pubpeer可以侦测可能存在的学术风险。Pubpeer上主要针对的是全球英文论文,不能实现侦测中文论文学术风险的任务。中国各学科都存在大量中文论文,如何从中识别并评估潜在的中国的学术风险,显然仅仅依靠Pubpeer是不够的,需要建立属于我国自己的类似于Pubpeer这样的平台。一是能有效侦测中文论文可能存在的学术风险,不论是因主观原因还是客观原因导致的风险,推动科学研究有序正确进行;二是学术风险有很大部分是因丧失学术诚信导致的风险。建立这样的平台本身就是对心存侥幸、丧失学术道德、以身试法者的强力震慑。建立中文论文刊后同行评议在线平台,首先,能够发表质疑的评阅者范围应该是更加全面和广泛,具有一定的学术素养和学术能力的人都可以成为评阅者。其次,质疑的发表的内容要更真实,符合客观事实。最后,只要评阅者是单纯的指出学术风险,净化科研环境,都应给予有力的保护机制。
  4.3本研究的不足
  本研究的学术预警分析结果主要与在Pubpeer上注册并发表评论的人群有关,人群的差异可能导致分析结果的差异,本文对该方面研究不足;同时本文从Pubpeer上获取的研究数据主要集中于生物医学领域的学术论文及其相关同行评论信息,研究方法对于该领域的学术风险现状评估更为有效。未来的研究将从发表评论人群的差异以及不同研究领域的学术风险差异两个方面展开更加深入的研究。
其他文献
中小学校是青少年日学习和生活的重要场所。学校建筑的设计,既要满足教与学的.功能需求,又要符合国家及地方有关技术标准和规范,符合建筑适用、坚固、美观的原则。文章从安全的角度出发,通过宏观、中观和微观三个层面,分析了中小学校建筑设计的要点。
弘一大师出家前名李叔同,1880年10月出生于天津桐达李家,1942年10月圆寂于福建泉州。李叔同“二十文章惊海内”,是那个时代最有才华的天才之一,中国新文化运动先驱者。早年将西方油画、钢琴、话剧等引入国内,且以擅书法、工诗词、通丹青、达音律、精金石、善演艺而驰名于世,是才气横溢的艺术教育家。1912年他到浙江两级师范学校任教后,于1914年加入西泠印社,1918年农历七月十三日,李叔同在西泠印社
期刊
关键词:技术创新;竞争情报;竞争对手;高新技术企业  技术创新本质上是一种投机活动,其失败率相当高,多数的技术创新活动都以失败告终。其原因在于技术创新面临着较大的不确定性,例如技术不确定性、市场不确定性、政策不确定性以及资源不确定性等。因此如何减少技术创新中的不确定性成为企业必须思考和处理的问题,随着企业的不断实践以及学术界的不断探索,逐渐认识到情报可以减少技术创新中的不确定性,情报活动是技术创新
[目的/意义]基于大规模数据对中国国际期刊论文的开放获取现状及其与世界水平的距离进行分析,为有关部门制定或调整开放获取政策提供依据,以推进我国开放获取进程.[方法/过程
关键词:知识付费;知识付费意愿;ELM;心理惯性;免费心理;调节定向  在信息爆炸而知识稀缺的时代,知识付费作为一种全新的知识传播模式,是消费升级的必然结果。知識付费引导人们崇尚知识消费、知识价值,解决了人们求知过程中的痛点,具有重要的社会意义。2016年分享经济被写入《政府工作报告》,知识付费作为分享经济下的一种商业模式进入大众视野[1]。据艾瑞报告中心统计,2019年我国知识付费用户规模为3.
湖州,地处太湖之滨,山清水秀,自古以来是江南的鱼米之乡。湖州美食众多,对于土生土长的湖州人来说,每一份熟悉的家乡菜肴,都能勾起心底那段美好的童年记忆。而你与湖州的距离,或许只差这些美味。  Lying along on the shores of Taihu Lake, Huzhou has been a land of fish and rice since ancient times. For
期刊
[目的/意义]本研究以国际高端品牌社交媒体平台官方账号发布的本土化营销资讯为例,探讨社交媒体平台本土化营销资讯对平台用户互动的影响.[方法/过程]基于VBA爬虫数据,本研究
近年来烟草企业高度重视党建工作创新和发展,在全面从严治党的背景下,烟草企业始终坚持党的指导,充分地发挥了党建工作的引领作用,将基层党建工作与业务相融合能够促进烟草企
目的探讨关怀护理在老年恶性肿瘤住院化疗患者中的应用效果。方法选择2019年1~12月在某市三级甲等综合医院住院化疗且符合条件的95例肿瘤老年患者作为研究对象,分为对照组和观察组各43例和52例,化疗期间,责任护士给予对照组常规护理,观察组在常规中应用关怀护理模式,比较两组患者干预前后观察指标有无差异性。结果干预前两组患者负性情绪、组间比较差异均无统计学意义(P>0.05);干预后两组患者的负性情绪、组间和组内比较均有统计学意义(P<0.05),观察组患者的治疗依从性、满意度均好于对照组,且并发
随着时代的进步,国家的发展越来越好,国有企业基层党支部在企业中的工作意义重大,在国有企业基层党支部开展思想文化工作,首先要做好思想政治体制改革,加强企业文化建设,使国