基于学术网络特征的论文被引量影响因素研究——以统计学期刊为例

来源 :中央财经大学 | 被引量 : 0次 | 上传用户:chencr33
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,科学论文出版物的数量呈现快速增长趋势,如何有效地评估一篇科学文献的学术价值或学术影响力成为了热门话题。论文被引量是常用于衡量学术论文影响力的方法之一,它反映了论文对学术界的影响,引用成为对同行工作的一种肯定。因此,许多学者将目光聚焦于对论文被引量建模,并展开预测,取得了较好的效果。但目前已有的文献中,大部分学者主要利用的都是论文或作者本身的特征,仅一小部分学者考虑到了一类非常重要的因素——学术网络因素。本文研究了统计学期刊论文的被引量,基于从作者合作网络、期刊引用网络及引文网络中提取的特征,建立统计机器学习模型,研究论文被引量的影响因素。本文的研究将学术网络相关特征应用到统计期刊的论文被引量预测中,对了解统计学界的学者的参考习惯以及统计学的发展情况有重要意义。本文利用Gao et al.(2021)公开分享的2001年至2018年44个统计学期刊上发表的66460篇论文信息,对其进行数据清洗,构建了论文的学术网络相关特征、主题相关特征和作者的h-index,并对因变量论文被引量及所有解释变量进行描述性统计分析,发现论文的被引量呈现明显的右偏分布形态,并且存在相当比例的0值。论文相关因素中,论文年龄、摘要长度、参考文献平均年龄及关键词个数与论文被引量呈正相关;作者相关因素中,作者最大h-index、最大已发表文章数、最大平均被引数与论文被引量呈正相关。本文以论文是否被引建立了 Logistic回归模型,探究论文是否被引的影响因素。被引可能性模型的AIC选择结果表明,所有因素中,期刊历史声望排名、论文年龄、关键词个数、摘要高频词个数、参考文献被引量、论文作者数、作者平均中介中心性、作者最大历史声望、作者平均h-index和作者最大合作学者数对论文产生引用的可能性有显著的正向影响。期刊紧密中心性、主题多样性、作者最大中介中心性、作者平均历史声望、作者最大h-index和作者平均合作学者数对论文产生引用的可能性有显著的负向影响。本文在被引量大于0的样本上建立了泊松回归模型,探究论文被引量的影响因素。被引次数模型的BIC选择结果表明,所有因素中,期刊历史声望排名、期刊出度中心性、期刊紧密中心性、期刊PageRank、主题得分、主题规模、论文年龄、摘要长度、关键词个数、摘要高频词个数、标题包含冒号、参考文献被引量、论文作者数、作者平均所属社区大小、跨机构合作、作者最大已发表论文数、作者平均历史声望、作者平均h-index和作者最大h-index有显著的正向影响。期刊入度中心性、论文主题数、标题长度、作者最大所属社区大小、作者最大中介中心性、作者最大历史声望、作者平均合作学者数和作者最大合作学者数对论文被引量有显著的负向影响。本文利用多种机器学习模型,分别预测论文是否被引、产生引用后的被引量,评估各特征的预测效果,并利用随机森林模型输出的变量重要性指标,对变量重要性进行排名。预测性建模的结果表明,作者相关因素的预测效果最好,论文相关因素也对预测被引量有较大影响,而期刊相关因素影响较小,期刊相关因素中仅期刊历史声望排名重要性较高。这说明学者在选择参考文献时,不仅会关注文献的作者,还会关注论文本身的内容和质量,但不太关注论文发表的期刊。期刊相关因素预测效果较差的另一个原因可能是,期刊相关因素多数是根据期刊引用网络构建的学术网络特征(如期刊的网络中心度等),而这一类特征对于期刊的重要性、声望及影响力的挖掘程度较低。之前已有的工作大部分是基于全学科论文,或例如计算机科学、历史学等大类学科论文,并且只有较少工作在建模时考虑了学术网络相关因素。本文研究统计学期刊论文被引量的影响因素,结合社交网络分析方法构建学术网络特征,考虑的因素更加丰富,能够获得统计期刊论文被引量的影响因素,具有普适性,可以推广至其他学科领域的被引量预测中。
其他文献
基于深度学习的图像生成技术在风格迁移、人脸属性编辑等领域大放异彩,但同时也降低了图像造假的门槛,各种图像生成技术的滥用使得市面上伪造图像泛滥,给个人及社会都带来了名誉等方面的负面影响,因此,伪造图像检测技术成为图像领域的研究热点之一。现有的检测技术主要面向低分辨率图像,在特定伪造图像生成方法的生成图上检测效果好,但在其他方法生成图上检测效果较差。而实际应用场景中,图像来源多数不明,无法进行针对性检
学位
近年来,中国经济市场化程度日益提高,市场竞争的环境愈发趋于复杂,上市公司由于经营业绩下滑、债务偿还能力下降而导致的信用违约事件频频发生。为了强化上市公司抵抗风险的能力,让管理层尽早了解并采取措施处理潜在危机,对上市公司信用风险进行早期预警就显得意义重大。“因财务状况异常而遭受特殊处置(ST)”作为中国证监会对主营业务经营状况不佳的上市公司的一种处置方式,是投资机构或投资人在做出交易决策前必须参考的
学位
生物发光断层成像(Bioluminescence Tomography,BLT)是一种应用前景广阔的光学分子影像技术,它具有非侵入性和高灵敏度的特点,能够在细胞和分子水平对生物体内病变区域的病理和生理变化进行定量监测。BLT结合CT成像技术能够同时采集生物组织内部结构信息和生物体表面光学信息,进而实现对生物体内病灶部位的检测与成像。BLT具有成本低、灵敏度高等优势,在临床研究和疾病诊断中具有越来越
学位
利用计算机程序对物理世界的客观事物进行实验建模时,其中的变量参数往往并不确定,而是通过某种形式不断改变。因此,实验者常常会将函数模型中的输入看作是随机变量,并通过计算机实验来获取关于函数输出结果的概率分布信息。然而,计算机实验的构建与运行必然产生一定的成本,当实验次数N由于外部环境要求而有所限制时,实验者应当更加理智地选取输入变量的取值。为了解决上述问题,Mc Kay等(1979)以及Iman和C
学位
高考志愿填报是高考中的重要环节,对考生和家长而言意义深远。然而面对复杂多样的院校和专业信息,考生和家长很难在短时间内做出最符合自身需求的选择。个性化推荐能够根据用户特征和偏好推荐感兴趣的信息,已经在在线教育、专家筛选等教学科研领域得到成功的应用。针对高考志愿填报,本文进行了个性化高考志愿推荐系统研究,结合个人工作内容和多年从事高考招录工作的工作经验,构造高考志愿推荐文本,利用改进的卷积神经网络对文
学位
随着互联网技术的快速发展,众多电子商务平台服务业和社交平台从萌芽走向成熟。目前许多平台都提供了评论功能,购买商品或体验过服务的消费者都可以对商品或服务进行评论,这些评论表现了消费者们对于消费品或服务不同方面的客观评价。然而,用户却难以通过大量的评论来准确的找到自己所真正需要的信息,因此需要对评论数据进行更为细致的信息挖掘。本文使用潜在方面评分分析,简称LARA算法进行评论文本分析,LARA算法能够
学位
个人信用评估是当前金融科技中的热点课题之一。在当今智能时代,随着大数据、人工智能、移动互联等数字技术快速发展,金融与信息技术深度融合,现代金融科技不断进步,大数据背景下互联网信贷交易场景逐渐复杂。在互联网消费金融场景下,完善现代征信体系成为亟待解决的问题。近十年,随着互联网分期消费业务的快速发展,网络分期交易已是互联网电商活动中主流支付方式之一。与此同时,互联网个人信用体系的缺失和个人信用评价体系
学位
大脑是人体最复杂最精妙的器官,负责处理各种外界信息并做出正确反映。大脑中数以百亿计的神经元相互连接,构成了人类认知和行为模式的多样性。智力是人类得以创造文明的重要因素,也是个体不断成长进步的内驱力,因此各界研究者对智力的研究一直如火如荼。智力包罗万象,逻辑推理、思辨、记忆、解决问题的能力都统归于智力,但其抽象且不可直接测量的特点也是研究上的一大难点。非侵入的磁共振成像技术是探寻大脑活动和其神经机制
学位
非公有制经济作为我国市场经济中的关键一环,其地位的重要性毋庸置疑,因此我们要毫不动摇的坚持、巩固和发展。在非公有制经济中,家族企业始终起着重要的作用、扮演着关键的角色,家族企业的良好发展对带动人民充分就业、巩固我国经济社会的和谐与稳定意义非凡。但是在经济市场中,家族企业与广大中小微企业的处境类似:“融资难”问题使得企业难以获得充足的资金,进而难以实现扩大化经营与多元化发展。很大一部分原因源自于社会
学位
肺结节的早期诊断能够有效辅助医师进行肺癌前期的判别,对于预防肺癌的发生具有重要意义。临床中医师主要通过CT图像对肺结节症状进行判定。然而面对数量呈现出爆炸式增长的肺部CT图像,医师需要耗费大量时间判别才能满足临床需要,由于医师对图像认知不同,在具体判别过程中也可能存在误诊和漏诊的情况。医学图像检索技术可以从大量已有确诊病例中检索出与当前图像病理特征最相似的CT图像辅助医师进行判别和诊断,减轻医师工
学位