基于云计算的微博推荐系统

被引量 : 0次 | 上传用户:zhuxuchen0822
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今,我们处在一个多核的信息时代。单一CPU节点所遇到的性能瓶颈越来越明显,而利用云计算技术,可以非常高效的完成对海量数据的存储和计算任务。在这样的技术背景下,本文具体研究工作包括Hadoop云计算平台的搭建和传统算法的迁移,微博数据的抓取以及协同过滤推荐算法原理的分析,改进和优化三个主要部分。云计算部分,论文首先简要介绍了云计算的概念,部署模式以及SPI服务模型和目前研究现状等背景知识。然后论文通过积极尝试,成功搭建了Hadoop分布式云计算平台,为后面的实验提供了基础设施保障。在微博数据的抓取部分,论文给出了具体的抓取用户数据的解决方案并根据算法需要进行了相应的数据预处理工作。另外论文对数据集统计属性的分析为后文分类算法的设计提供了科学依据。对于第三部分,论文基于云计算环境研究了对微博用户的协同过滤(CF)推荐,介绍了几种经典的CF算法,通过实验发现这些算法很难给微博用户做出精确的推荐,为此论文设计了一种新型的更适合于微博平台这种大项目集的EssCF推荐算法,并成功将该算法迁移至Hadoop平台的MapReduce并行编程框架之中。最后,论文在实验室的分布式集群中,对EssCF推荐系统进行了功能测试实验,集群测试实验,并与传统的CF算法进行了性能对比测试实验。基于这些实验数据,论文对EssCF系统的优缺点进行了仔细分析,并对全文所做工作进行了总结和展望。
其他文献
经济全球化与区域经济一体化是当今世界经济的两大发展潮流,在当前多哈回合的谈判陷入僵局,全球化的经贸谈判触礁很难继续推动的情况下,区域经济一体化的谈判持续升温,世界各
随着多媒体以及全球化进程的逐渐加快,国际性的文化交际已经日渐成为人们生活的一部分并进入人们生活的每一个角落。不同于传统的文化交际形式,影视文化交流已经成为了目前最
中国五千年的文明,地理标志是其传承下来的一种历史悠久的无形资产,是中国的巨大财富。但我国对地理标志的保护起步较晚,且不完善,且我国对地理标志的保护不同于其他国家的保
保险公司作为经营和管理风险的机构,防范风险是永恒的主题。近年来频繁的市场动荡、金融创新带来的不确定性,使得全球金融体系发生危机的可能性与严重性与日俱增。在应对危机
从全球价值链的视角来看,中国纺织服装产业处于全球价值链的低端,纺织服装企业多为以加工贸易为主的劳动密集型企业,大部分企业或者是为跨国公司贴牌进行产品加工,或者是承接
通过采用紫外分光光度法对木质素磺酸进行定量,对测定木质素磺酸盐磺化度的“离子交换一电导滴定法”进行改进,并比较了改进前后的测定结粟。结果表明,离子交换树脂对木质素磺酸
当今世界经济形势多变,要想在激烈的市场竞争中生存和发展,企业除了在产品和样式方面进行创新以外,很多企业已经根据日益多样化的市场需求来提供个性化的增值服务来赢得顾客
近年来,我国银行服务业进入了一个新的阶段,商业银行的竞争格局发生了重大变化,银行业面临着更加复杂的经营环境,经营压力不断加大。基于经营产品的同质性,各商业银行的业务
摘要:TETRA是全球最主要的数字集群通信标准之一,被认为是几种数字集群通信系统中指挥调度功能最强的。第二代TETRA主要增强了高速数据、语音编码及覆盖范围等方面的业务功能,