基于表示学习的新闻推荐关键技术研究与系统实现

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:QQPIG
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息技术和互联网的发展,深刻地影响了人们获取资讯的方式。人们的新闻消费模式已经从传统的订阅报纸,转变成了通过互联网访问成千上万的不同来源的新闻。互联网不仅加速了人们的新闻消费速度,也开拓了消费的渠道,与此同时也带来了信息过载问题。推荐系统是解决信息过载问题的有效方法之一,因此新闻推荐系统也吸引了工业界和学术界越来越多的关注。新闻推荐系统面临3个关键的挑战:(1)推荐对象是由非结构化的文本组成的新闻文章,由于语言本身的复杂性,原始的文本信息无法被计算机有效处理,需要表示成便于数学计算的向量形式。同样的,也需要将用户的阅读兴趣等信息表示成向量形式。新闻和用户的表示是新闻推荐中的关键,向量表示的好坏直接影响到推荐结果的准确性。(2)新闻热点随时间变化,用户的兴趣也会随时间发生变化,时间因素是新闻推荐中不可忽略的因素。(3)面对海量的用户行为日志和新闻数据,需要一个灵活的可扩展的系统架构来支撑新闻推荐任务。  本论文着重于解决上面提到的3个问题,以新闻推荐中新闻与用户的表示模型为研究主体,在此基础上结合时间因素提高推荐的精度,同时给出一个基于分布式计算引擎的可拓展的新闻推荐原型系统。本文的主要工作和贡献如下:  1、在传统的基于因子分解的协同过滤模型的基础上结合文档与词的组合关系语义,提出用于推荐领域的联合表示学习模型CJE(Collaborative Jointly Embedding),能同时学习用户和新闻带语义信息的表示向量。在此基础上进一步融入词的聚合关系语义,提出强化语义信息的联合表示学习模型。实验结果表明本文提出的联合表示学习模型不仅有更好的推荐结果,还能得到具有较好可解释性的新闻和用户的表示向量。  2、在联合表示学习模型的基础上,结合时间因素,提出基于时间区间划分的时间动态模型。通过对每个时间区间内的新闻热点和用户短期兴趣建模,在联合表示学习模型中考虑了热点新闻和用户的兴趣偏移对新闻点击的影响。实验结果表明加入时间因素的联合表示学习模型在推荐结果上有显著的提升。  3、基于前面的算法研究,在Spark分布式计算引擎和Spark Streaming流计算引擎上,设计了一个高效可拓展的新闻推荐系统原型,并结合本文提出的算法实现其中的离线模型训练模块与流式新闻表示向量预测模块。
其他文献
MDA及相关规范是OMG组织继OMA及CORBA规范之后,为解决分布、异构系统的集成问题而提出的下一代解决方案.其中的CWM是MDA及开发方法在数据仓库领域的应用.依据模型驱动体系结
IKE(Internet Key Exchange)协议是一种密钥管理协议,与IPSec(IP Security)协议一起使用,负责动态协商和管理IPSecSA(Security Association,安全关联)。论文首先对IKE协议进行了
学位
随着电子商务以及INTERNET技术的日益成熟,电子商务网站已经对人们的生活产生了巨大的影响,人们对电子商务网站服务质量也越来越关注,而支撑整个电子商务网站的后台Web服务器的
随着嵌入式应用的广泛发展,计算机技术和通信技术的进步以及Internet的广泛应用,“后PC时代”,网络连通性是嵌入式系统的必须要求,研究网络化的嵌入式系统有重要的实践意义。
在分析当前流行的网络存储体系结构及存储协议的基础上,对iSCSI协议作了深入研究.采用了纯软件方式实现iSCSI协议,它主要由启动端(initiator)/目标端(target)组成,启动端发出
在国家863项目"基于Internet的以构件库为核心的软件平台"中,我们分析了目前已有的构件组装平台,使用现有的DCOM规范作为我们支持的构件模型,取得了如下的研究成果.●提出了
随着网络的快速发展,网络安全越来越多地受到重视。作为网络安全领域的一个重要分支,网络安全评估与防火墙等传统网络安全防护手段不同,它采用主动的方式来检测网络的安全性。通
视频压缩及传输由于具有广泛的应用前景,成为国际研究的热点。它是HDTV、DVD、视频会议、Internet视频及其它相关应用的核心技术。目前,由于现有标准的局限性,国际上提出了嵌入
随着嵌入式系统日益普及,基于嵌入式系统开发应用软件的需求越来越广泛,但是嵌入式系统资源(如CPU处理能力、内存容量、功耗等)有限,从而使在该系统上运行的应用软件的大小及运