论文部分内容阅读
科学论文是科研成果的重要物化形式之一,也是衡量国家或者个人的学术水平和科研能力的重要评价参考。论文引用率是衡量一个国家科研论文被其他国家或机构的认可度的标志,下载量可以反映出论文的吸引力。国外学者研究过生物、数学等自然学科的英文文献存在着诸多因素对被引频次有影响作用,但研究中文文献的学者甚少。因此本文主要从中国知网上获取生物、数学、物理学、资源科学2007—2016年期间在指定20个期刊上发表的中文论文的数据,来研究中文论文中被引频次和下载量的影响因素,建立拟合被引频次和下载量的最优模型,并对高频被引论文进行识别,这对于评价论文质量有一定的价值,有助于评价研究的重要性。本文首先探究了中文论文不同属性特征下被引频次和下载量的分布规律,并且采用Pearson相关系数检验、Kruskal-Wallis检验、Nemenyi检验和Wilcoxon检验对每个属性特征与被引频次、下载量进行相关性检验。其次,分别对被引频次和下载量拟合模型,由于被引频次存在零膨胀现象,因此对被引频次拟合了Poisson回归模型、负二项回归模型、零膨胀Poisson回归模型和零膨胀负二项回归模型,对下载量拟合了传统计数模型,采用似然比检验和AIC、BIC准则比较出最适合拟合被引频次和下载量的模型,以最优模型分别讨论论文各属性特征对被引频次和下载量的影响作用。最后,采用Logistic回归模型、分类树、支持向量机和K最近邻模型对高频被引的论文进行识别,由于论文的高频被引存在不平衡特征,即样本中高频被引占比很少,因此采用了SMOTE算法对数据进行平衡化处理,分别对未处理数据和平衡化处理数据进行识别,以及对生物学和物理学高频被引的论文进行识别,根据准确率、召回率和AUC值比较数据平衡化前后的分类效果。研究结果表明,对被引频次拟合的最优模型是零膨胀负二项回归模型,拟合下载量的最优模型是负二项回归模型。通过对模型的分析,对论文是否被引用有显著影响作用的因素分别是:论文的下载量、论文长度、标题长度、发表年份、期刊等级、学科类别、摘要字数、关键词个数、是否合作完成;对被引频次有显著影响作用的因素分别是:论文的下载量、标题长度、发表年份、期刊等级、学科类别、摘要字数、关键词个数;对论文的下载量有显著影响作用的因素分别是:被引频次、论文长度、标题长度、发表年份、期刊等级、学科类别、摘要字数、是否合作完成。基于SMOTE算法对数据平衡化处理后的分类结果相比未处理的分类结果要更好,虽然准确率有所降低,仍然保持较高的准确率,但召回率和AUC值明显提高。对于生物学和物理学而言,不同学科之间论文高频被引确实存在差异,而且经过对比Logistic回归模型、分类树、支持向量机和K最近邻模型的分类效果,分类树对生物学高频被引论文的识别效果更好,支持向量机对物理学高频被引论文的识别效果更好。