论文部分内容阅读
被引量是衡量一篇论文影响力的一个最直观的指标,高度被引用的论文表明它具有较高的学术影响力。为了紧跟科研的潮流,科研工作者不仅需要不断地阅读当前有影响力的论文,而且还需阅读那些在未来会有影响力的论文。预先识别有潜力的论文有助于研究人员选择合适的参考文献和研究领域,也可以为论文检索和推荐系统提供参考依据。因此如何从庞大的论文库中找出具有潜在有影响力的论文是目前研究的一个热点。目前已有的研究主要是在提取与论文、作者和出版地有关的特征后预测论文的影响力。但是当前的研究还存在很多的不足:(1)与学术网络相关的特征现在还没有得到充分地考虑;(2)在众多的特征中,并不是每种特征同等地影响论文的影响力,哪类特征能够显著地影响论文的影响力也没有得到详细的研究;(3)没有考虑进行特征选择,也没有验证特征选择是否可以提高预测效率。本文在已有研究的基础上,针对以上存在的不足,提出了一个新的论文影响力预测模型。该模型主要包括以下几个方面:(1)提取学术网络相关的特征,包括与作者、论文、出版地、论文引文有向网络、作者合著无向网络和出版地引用有向网络相关的特征;(2)使用神经网络模型分析每个特征的重要性并通过基于相关性的特征选择方法和基于特征分析结果的人工选择方法选出几组较优的特征方案组;(3)通过不同的预测方法(多层感知机、高斯过程回归、多元线性回归和支持向量机)预测不同时间段(3年后和5年后)论文的被引量,确定出较优的一个预测方法。本文使用ArnetMiner上的数据集进行了多组对比实验。实验结果表明支持向量机最适合用于预测论文的被引量。与已有的方法相比,本文中所使用的模型提高了预测准确率。