论文部分内容阅读
由于当前科研的不断发展,大量论文的出现使得科研工作者在进行论文研读时会产生一定的困扰,论文推荐系统可以很好的解决此类问题。因此本文提出了基于三层引文网络的图模型以及相应推荐算法。在三层引文网络图模型中结合了论文内容特征信息、论文引用关系、作者的合著关系以及论文的研究领域信息多种论文特征。本文主要研究工作如下:(1)对论文推荐系统以及相应算法进行一定的研究,了解相关领域的研究现状并进行综述。总结论文推荐系统以及引文网络中的理论信息,为后续的模型构建、算法应用以及推荐系统的实现做好理论基础。(2)构建了三层引文网络图模型。目前,大多数引文网络模型仅采用单一特征模型且未涉及到论文的研究领域信息。因此,本文将论文引用关系、论文内容特征信息、作者合著关系以及论文研究领域信息融入到该模型中。利用AMiner上的DBLP-Citation-network数据集,首先提取数据集中论文、作者以及研究领域信息;其次根据论文之间的引用关系建立论文引用网络,根据作者之间的合著关系建立作者合著网络;最终根据三者的关联关系建立三层引文网络图模型。生成的三层引文网络图模型将作为后续算法和推荐系统原型实现的数据模型基础。(3)提出了基于三层引文网络模型的论文推荐算法。将上述提出的三层引文网络图模型与重启随机游走算法相融合,形成本文的论文推荐算法(PAFRWR)。本文通过recall@N与NDCG@N的值作为评价指标值,首先对比不同重启概率下的评价指标值,确定了PAFRWR的重启概率参数=0.3。再通过对不同搜索向量的实验对比,确定当搜索向量包含论文、作者和研究领域三重信息时,评价指标更高。最后,将PAFRWR算法与PageRank、LDA和Link-PLSA-LDA进行对比实验,实验结果表明,PAFRWR算法的评价指标值优于其他三种方法。(4)设计并实现了基于三层引文网络模型的论文推荐原型系统。结合本文提出的模型和算法,介绍系统整体框架以及主要模块设计,本系统采用Python语言进行系统开发,借助XmlRPC模型,将推荐模型转化为RPC服务,最终通过以上技术实现该系统。