论文部分内容阅读
随着人类进入互联网乃至于移动互联网时代,信息的生产者也从最早的专家人员转变为全体互联网用户。人类获取信息的方式也从最早的门户网站,发展到利用搜索引擎。然而人类信息化程度越来越高,人们对于信息的需求也从最早的共性变为现在的个性化。针对于推荐系统的研究和应用,已经在学术界和工业界收到了广泛的关注。目前已经有较为成熟的推荐系统被应用在新闻内容、电影视频、音乐歌曲以及电商产品等等领域之中。相应的,有关推荐系统的相关研究在国内外也日益增多。然而针对学术论文推荐系统,尤其是基于社交网络来对用户进行学术论文推荐的相关研究较少。众所周知,科研学术成果随着科学研究的发展而快速增长。科研人员获取其感兴趣的科研成果时,主要还是依赖于在不同的数据库或者搜索引擎中寻找,或者是需要定期浏览自己相关领域的学术刊物或者有关网站,以此对学术界最新的科研动态进行了解。但是这样的浏览和查找工作又是十分费时并且比较繁杂。科研人员有时会甚至会迷失在数以千计的科研成果之中。再考虑到当下科学研究中跨学科研究日益增多,科研人员在获取自己不熟悉的学术领域时,往往没有相关的先验知识。因此,使用推荐系统来为科研人员提供信息服务十分必要。近些年来,科研学术成果的相关推荐系统研究并不是很多。已经发表的学术论文或科研成果推荐研究,大多基于科研成果本身内容的分析。比如利用LDA(文档主题生成模型)对每篇科研成果生成文档主题,再利用主题之间的相似度来进行学术成果的推荐工作。此外,还有一些研究基于科研成果的外在属性,例如科研成果的质量、科研成果的引文网络等等。这些相关的研究主要利用的是在学术成果上已经形成的先验知识,并没有考虑科学研究的时效性以及对于科研人员学术兴趣转换等方面的考量。在本研究中,提出了利用当下热门的科研社交平台ResearchGate(科研之门)上,科研人员及其关注的科研人员所发布的有关学术话题以及知识技能等内容信息,进而组建科研人员的学术兴趣模型。同时,本研究还对科研人员的学术引用情况进行了研究。通过对科研人员在一个较长时间段内发表论文以及相关的学术引用行为进行研究,发现了科研人员在引用学术成果时,其被引作者的频次对数化之后可以被较好的拟合。其长期研究成果中的作者关键字,也基本反映了其学术方向和领域。而这些作者关键字绝大多数也可以在其ResearchGate科研社交平台上填写的内容中找到。这些都是利用ResearchGate科研社交平台上用户生成的内容构建推荐系统的前提条件。在本研究的最后,对该学术论文推荐系统进行了测试。系统主要实现了其有关的学术社交平台上用户生成内容的获取、存储、清洗以及基于科研人员的个性化推荐等功能。最后,本研究基于目前推荐系统常见的评测指标,针对基于科研人员自身生成内容以及自身生成同其所关注的用户所生成的内容融合这两个不同信息源进行科研成果推荐的性能进行了有关的试验。试验证明了本推荐系统的有效性。本研究的学术贡献主要存在于以下几个方面:本研究利用科研社交平台中用户所生成的内容建立科研人员的学术兴趣。科研社交平台同传统的社交媒体平台类似,都可以为推荐系统提供更加多元而丰富的信息。并且对于推荐系统的冷启动问题可以有较好的解决。本研究利用科研人员在一个较长的科研实践过程中产出的科研成果抽取其作者关键字,以此来构建科研学术词汇近义词词典。这在很大程度上解决了来自科研社交平台的内容偏重宏观,科研社交平台内容与学术成果匹配度较低的问题。探索了科研社交平台上用户生成内容获取的方法。现在ResearchGate科研社交平台并未开放其数据接口,数据获取存在一定难度。获取这些数据可以为本机构科研人员提供多元化服务。