论文部分内容阅读
面向学术文献的信息推荐技术具有很好的实用性,能帮助研究人员减轻信息过载所带来的负担。根据美国科学基金预测,2014年全球发表的论文将达到一百六十四万篇。面向学术文献的信息推荐技术能够帮助研究人员从海量论文中便捷地找到对其有用的论文。 面向学术文献的信息推荐技术可以归为两大类,一类是论文推荐,另一类是引用文献推荐。前者根据用户的浏览记录、个人档案等信息推测出用户兴趣,向其推荐论文;后者是指,给定一篇论文或论文中的一段文本,推荐与该论文或该段文本匹配的引用文献。本文对上述两类学术文献推荐任务进行了研究,即论文推荐和引用文献推荐,分别提出了利用阅读顺序信息的论文推荐算法和跨语言的上下文感知引用文献推荐算法。 在论文推荐任务中,常见的方法是通过用户的浏览记录来推测用户兴趣。对于这个任务,目前的算法大多是基于协同过滤的框架,简单地将阅读记录看成无序的,而忽略了阅读顺序中所蕴含的论文之间的关系。针对上述问题,本文提出了一种利用阅读顺序的论文推荐算法。该算法以基于矩阵分解的协同过滤算法为基础,在优化目标中加入反映论文关系的约束项。该算法既能够很好地利用论文之间的关联关系,同时又保持了基于矩阵分解的协同过滤算法的优点。为了计算论文之间的关联度,本文提出了一种基于用户阅读顺序的论文关联度计算方法。在真实数据集上的实验结果表明,本文提出的算法能够取得更加优异的性能。 对于引用文献推荐任务,本文关注给定一段文本,为其推荐匹配的引用文献的情形,即上下文感知的引用文献推荐。现有的算法只适用于单语言环境。但是在实际中,跨语言文献引用是非常普遍的。本文定义了一个新颖的任务——跨语言的上下文感知引用文献推荐。针对这个任务,本文提出了一个利用双语隐式语义空间的上下文感知引用文献推荐算法(BLSRec-Ⅰ),该算法可以为不同语言中的上下文文本和引用文献内容学习一个共有的隐式低维空间,并在该隐式空间中计算上下文与引用文献的关联度。在这个算法基础上,本文进一步利用双语语料和论文摘要信息对BLSRec-Ⅰ进行了扩展,分别得到BLSRec-Ⅱ和BLSRec-Ⅲ两个模型。通过在真实数据集上的验证,本文提出的算法可以取得比基准算法更好的性能。