基于微博内容的实时推荐系统

来源 :北京大学 | 被引量 : 0次 | 上传用户:mgq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在信息大爆炸的今天,推荐问题早已成为一个迫在眉睫的问题。在不同环境下的不同推荐算法被不断提出和修正,在各个领域对于推荐系统的应用也比比皆是。推荐的算法从最简单的非个性化的推荐,到个性化的基于内容和用户信息的推荐,逐渐发展到了考虑用户之间的协同相关性的协同过滤算法。近年来,利用矩阵分解来构建推荐模型的一个协同过滤的分支逐渐热门起来,并在大规模的稀疏数据上表现出了不错的效果。  随着社交网络的兴起,互联网又发展到了一个全新的阶段,全新的交互形式和数据在被人们产生和使用。这些在线的数据流,也为现有的推荐系统带来了很大的挑战。一方面,这些数据的量十分巨大,使得传统的推荐方法不但不能及时处理,还面临着候选集过大的问题。另一方面,微博等社交网络中话题的迁移和用户兴趣的变化十分迅速,而一个好的推荐系统,应该能够抓住这些迅速的变化,在正确的时间为用户推荐当时符合他们兴趣的内容。  因此在本文中,提出和设计了一个两阶段的推荐系统,来解决这些挑战。在第一阶段中,本文简化和改进了微博-话题模型,使其能够高效率的分布式增量运行,因而能够实时的抽取出当前微博内容中的话题构成。在第二阶段中,本文提出和实现了TCMF推荐模型,能够针对用户之前的对话题的兴趣历史,为其推荐最新的他会感兴趣的话题。通过结合这两个阶段,系统能够对新进入的微博,根据话题模型为其进行候选集预分配,解决候选集过大的问题,本文也通过将推荐和话题抽取两个阶段分开,在冷启动问题方面有不错的表现。通过利用UCBerkeley设计的分布式处理框架Spark,本系统中设计的算法能够分布式的运行,这也保证了系统在将来数据量进一步扩大时良好的可扩展性。  在详细调研相关工作的基础之上,本文分5个部分,详细介绍了本文设计的基于微博内容的实时推荐系统。在系统框架设计中,本文介绍了对于流式输入的数据,进行数据抽样存储,实时计算的计算框架,说明了两阶段模型之间的依赖和联系。在数据获取与描述中,介绍了使用的微博数据的形式和特征。在话题抽取部分中,本文改进了微博-话题模型,一方面实现了它在Spark上的分布式算法,另一方面本文针对分布式的环境对其进行了简化修改,提高了其运行效率。在话题推荐部分中,本文设计的TCMF推荐模型,能够实时的为用户推荐他们当时感兴趣的话题。内容推荐部分中,结合前两个阶段的结果,通过预分配候选集,加速了推荐的过程,并良好的解决了冷启动、话题演变等等一些在推荐系统中常见的顽固问题。  通过设计一系列的实验,验证了核心算法的处理效率,发现本文提出的算法能够有效率的从海量微博内容中挖掘出有意义的话题。文章同样通过实验对TCMF推荐模型进行了各方面的评测,比较其与现有推荐方法在这样的推荐任务下的表现差别,实验结果表明本文的推荐算法要明显优于其他方法,能够更好的抓住用户的兴趣变化,实时更新,及时为用户推荐他感兴趣的话题和内容。  
其他文献
在程序静态分析中,为达到精度与效率的有效平衡,基于缺陷模式的分析方法在大规模程序开发、维护中得到了广泛的应用。目前研究机构和业界普遍采用的缺陷分析方法主要包括;以控
该论文的内容从大体上划分为四个部分,这其中包括了作者所做的研究工作与创新工作:在第一部分,介绍了该课题的研究背景、研究意义,并介绍了与课题相关的信息安全技术的发展状
本文主要是针对火炮缠度在线检测技术进行详细分析。在此之前,国内尚无缠度的在线检测产品,这是首次完成了国内缠度自动检测,达到了要求的主要技术指标,有技术性突破。 系统包
少自由度并联机构是目前机器人研究领域的热门课题,目前许多学者开发出很多新机构,但新机构要进入实际的工程应用领域还需进行很多系统的研究。因此本课题对两个少自由度机构
金融市场是一个复杂系统,积累有大量的历史数据,并且,这些数据还在以更快的速度增长.在这些海量数据中隐含着有用的信息.数据挖掘是一门新兴的交叉性学科,研究如何从大量历史
本文提出一种基于感知规则的形状分解方法,它能够将形状分解成有语义的部件。形状分解在计算机视觉领域具有重要意义,是物体感知、识别和检测等任务的基础。当前大多数形状分解
为了解决个性化信息服务领域如何满足用户需求和适应环境变化的问题,在深入分析国内外研究现状的基础上,把柔性软件开发技术引入个性化信息服务系统,探讨基于柔性的个性化信
该文在私人金融业务在金融领域飞速发展的背景下,针对多个机构合作评估个人客户信用等级的问题进行研究.根据一般数据挖掘系统的构架特征和常用的分布式学习框架,在不均匀垂
随着Internet迅猛发展,WEB网站的信息资源为人们的学习和生活提供了极大的方便。然而,由于WEB站点之间的异构性,资源的有限共享成为急需解决的问题。另一方面,人类社会是一个广泛
本文首先分析了当前配电网管理中存在的问题和配电网地理信息系统的发展趋势。接着,引入了基于组件的软件开发思想、组件式GIS技术和万维网GIS技术。在此基础上,根据系统开发方式、软硬件条件、用户功能需求和项目实际情况,提出了基于通用GIS组件的,C/S结构和B/S结构相结合的系统计算模型。然后,利用面向对象的空间数据库技术和元数据技术设计了系统数据库。最后,利用面向对象的可视化开发工具,实现了系统的各