【摘 要】
:
随着当前每种领域与互联网结合的程度越来越高,导致相互关联的数据如井喷式增长。怎么从茫茫多的数据中,快速得到自己真正需要的个性化数据已经变得像大海捞针。虽然各个领域中都有涉及到基于CF推荐算法,然而在海量数据的环境下,数据稀疏性、可扩展性的问题就会更加凸显,严重影响Slope One-BI算法的推荐准确性。由于单机迭代能力的瓶颈,Spark平台利用内存优势来迭代推荐算法能大大提高推荐效率。所以本文把
论文部分内容阅读
随着当前每种领域与互联网结合的程度越来越高,导致相互关联的数据如井喷式增长。怎么从茫茫多的数据中,快速得到自己真正需要的个性化数据已经变得像大海捞针。虽然各个领域中都有涉及到基于CF推荐算法,然而在海量数据的环境下,数据稀疏性、可扩展性的问题就会更加凸显,严重影响Slope One-BI算法的推荐准确性。由于单机迭代能力的瓶颈,Spark平台利用内存优势来迭代推荐算法能大大提高推荐效率。所以本文把改进的推荐算法在Spark平台实现并行化。基于Spark平台和相关的大数据技术,本文针对原始的Slope One-BI算法的推荐准确性不高、算法迭代速度慢和计算复杂度高等问题,做了以下研究:(1)提出了Canopy-k-medoids聚类算法在大数据平台上的并行化。先运用Canopy算法对数据集进行遍历得到相应的簇的个数和全局的中心点,接着用K-medoids算法计算到各个中心点的距离,进行数据对象的划分。最后用UCI数据集进行性能测试,在加速比和扩展比上都有一定程度的提高;另外跟其他三种聚类算法相比,聚类形成的效果最优。(2)通过结合Canopy和K-medoids的聚类算法把相似的用户汇聚到一起;然后,在所属聚类中根据用户之间相似度的具体情况动态的寻找最近邻,并用Slope One-BI算法推荐预测;最后,在大数据Spark平台上实现并行化。总之,本文从Slope One-BI算法存在的不足和单机迭代的瓶颈出发进行优化,加入了动态k近邻和Canopy-k-medoids聚类两种方法,改善了推荐的性能并降低了MAE值。
其他文献
目的以社区糖尿病前期人群为对象,以充分利用社会资源为目标,构建经济、适用的糖尿病行为干预新型模式。方法通过系统分析和德尔菲法建立针对糖尿病前期人群的行为干预项目;
色情片亦称成人片,其内容不适合18岁以下的人群观看。色情片是伴随电影的发明而"发明"的。从电影这种新技术的发明一开始,影像的逼真感和局部的无限放大性,就将人类的窥探欲
城市轨道交通凭借便捷高效的优势逐渐成为人们出行的首选。列车乘客信息显示系统作为与乘客直接接触的车辆系统之一,其性能直接反映列车的运营服务水平。报站广播功能是乘客
目的:探讨神经内科癫痫患者心理保健及治疗对策与预后。方法:选择2010年12月~2013年10月在我院神经内科住院的癫痫病例50例,在常规药物干预的基础上予积极地心理保健措施,干
圣训作为伊斯兰教先知穆罕默德及圣门弟子阐释《古兰经》和实践伊斯兰教的言行记录,具有重要的法律功能。通过这一功能的发挥,庞大复杂又极具宗教色彩的伊斯兰法终成为了一个
慢性肾脏病(CKD)患者常伴有不同程度的蛋白-能量消耗(PEW),主要临床表现为骨骼肌萎缩,可增加患者并发症和死亡风险。PEW的发病机制是多因素的。研究认为食欲减退、泛素-蛋白
本文首先对豫剧的语言和唱腔进行阐述,从而对豫剧有了初步的了解。其次,以《没有强大的祖国,哪有幸福的家》为例,对于豫剧元素在作品中的运用加以分析,具体来说是对其演唱中
分子印迹技术作为一种新型分子识别手段近年来得到了迅速的发展。分子印迹聚合物具有选择性高、稳定性好、抗干扰性强以及应用范围广等优点,并可选择性的区分印迹分子及其类
(邮发代号:22-46)邀您“分享”海量精品语文教育资源,深度参与语文课程改革“新实践”!订阅方式:邮发代号:22-46,全国各地邮政局(所)均可征订;若错过征订时间,请直接网购或汇