论文部分内容阅读
信息技术和互联网的发展,深刻地影响了人们获取资讯的方式。人们的新闻消费模式已经从传统的订阅报纸,转变成了通过互联网访问成千上万的不同来源的新闻。互联网不仅加速了人们的新闻消费速度,也开拓了消费的渠道,与此同时也带来了信息过载问题。推荐系统是解决信息过载问题的有效方法之一,因此新闻推荐系统也吸引了工业界和学术界越来越多的关注。新闻推荐系统面临3个关键的挑战:(1)推荐对象是由非结构化的文本组成的新闻文章,由于语言本身的复杂性,原始的文本信息无法被计算机有效处理,需要表示成便于数学计算的向量形式。同样的,也需要将用户的阅读兴趣等信息表示成向量形式。新闻和用户的表示是新闻推荐中的关键,向量表示的好坏直接影响到推荐结果的准确性。(2)新闻热点随时间变化,用户的兴趣也会随时间发生变化,时间因素是新闻推荐中不可忽略的因素。(3)面对海量的用户行为日志和新闻数据,需要一个灵活的可扩展的系统架构来支撑新闻推荐任务。 本论文着重于解决上面提到的3个问题,以新闻推荐中新闻与用户的表示模型为研究主体,在此基础上结合时间因素提高推荐的精度,同时给出一个基于分布式计算引擎的可拓展的新闻推荐原型系统。本文的主要工作和贡献如下: 1、在传统的基于因子分解的协同过滤模型的基础上结合文档与词的组合关系语义,提出用于推荐领域的联合表示学习模型CJE(Collaborative Jointly Embedding),能同时学习用户和新闻带语义信息的表示向量。在此基础上进一步融入词的聚合关系语义,提出强化语义信息的联合表示学习模型。实验结果表明本文提出的联合表示学习模型不仅有更好的推荐结果,还能得到具有较好可解释性的新闻和用户的表示向量。 2、在联合表示学习模型的基础上,结合时间因素,提出基于时间区间划分的时间动态模型。通过对每个时间区间内的新闻热点和用户短期兴趣建模,在联合表示学习模型中考虑了热点新闻和用户的兴趣偏移对新闻点击的影响。实验结果表明加入时间因素的联合表示学习模型在推荐结果上有显著的提升。 3、基于前面的算法研究,在Spark分布式计算引擎和Spark Streaming流计算引擎上,设计了一个高效可拓展的新闻推荐系统原型,并结合本文提出的算法实现其中的离线模型训练模块与流式新闻表示向量预测模块。