论文部分内容阅读
随着大数据时代的到来,数据处理方案已经出现在各行各业当中,对数据有效地处理和存储是大数据时代的基本要求。推荐系统就是大数据时代衍生出来的一项重要技术。学术论文是科学研究者交流学术思想和科研成果的主要工具,是一种重要的研究资源。在学术论文推荐领域,推荐系统通过对用户的历史记录、行为反馈等信息进行分析,挖掘出用户潜在的需求,并向用户推荐需求领域内相关的内容,帮助研究人员在数千万的文献中找出可能需要的论文,使用户查找论文的过程变得简洁和方便。图模型是对现实数据以“图”结构的方式进行的抽象表达,而图算法是驱动在这种结构上的计算模式。对于存在较强依赖关系的论文数据,图模型是直观地体现它们之间关系的有效方式。本学位论文采用图模型结构表示方法,提出了一种基于分布式图模型的学术论文推荐算法。首先,针对论文数据良好的结构类型信息,分别进行题目、摘要、引用关系特征的提取,针对每一特征构建论文关系图模型。该模型能够合理地表达不同结构类型之间的关联性。然后将用户操作信息引入该模型,构建用户-论文两层图模型。其次,提出一种论文质量评价方法,该方法是对PageRank算法的一种改进,通过用户-论文两层图中顶点的关联程度,计算每篇论文的重要程度,并将该算法与SVD++算法进行融合,形成一种基于层次馄合的图推荐算法PRSVD++。该算法能有效地解决推荐精度低下的问题。最后,以Spark分布式计算平台为实验环境,利用GraphX图计算框架实现上述算法,在4个节点的分布式环境下的运行时间比单机下运行时间节省了28.1%。利用该环境基于内存计算的特点,有效地解决了针对大规模数据算法的可扩展性问题。实验结果表明,本文提出的基于分布式图模型的学术论文推荐算法的召回率、F值和覆盖率高于常用的推荐算法,验证了层次混合图推荐算法的合理性和有效性。