论文部分内容阅读
随着线上线下交易的越发频繁,O2O行业正在以前所未有的速度发展,同时也带来了海量蕴藏着巨大商机的数据。这些数据经过有效处理,可以提取大量用户及产品的相互关联信息,为用户提供精准推荐。但经研究发现,O2O数据因其体量大、类型多、速率快、密度低、隐式数据样本不均衡等特点,在推荐上存在许多问题。为此,本文提出了一种对O2O显式和隐式反馈数据进行混合推荐的大数据推荐系统方案,并设计了相应的分布式算法。方案首先通过设计一套融合聚类和基于用户协同过滤思想的推荐算法,来处理O2O显式数据,并通过建立冷启动仓库、矩阵分解预处理、训练聚类模型、优化聚类,改善了数据稀疏、冷启动问题,缩小了协同过滤相邻用户计算范围,提高了整体效率。然后,本文通过对隐式反馈数据基于选择倾向度的推荐,与显式数据结果作混合,并设计了一种全新的变加权混合策略,形成了更为精准的推荐结果。本文主要工作有以下三个方面:1)针对协同过滤推荐效率和精度问题,将基于模型的聚类分析融入基于用户的协同过滤推荐算法中,并利用Canopy粗聚类的思想改进了聚类过程本身,使得聚类模型更稳定,以此更准确地缩小了协同过滤算法邻居用户的计算范围,提高了算法整体效率,增强了推荐方案的实时性。并最终将算法实现并行化;2)针对O2O数据在推荐中的数据稀疏问题,对新用户和稀疏数据建立了预处理机制,对新用户建立了冷启动仓库策略,通过计算冷启动影响因子,融入信息熵和流行度共同影响排序,对新用户冷启动问题进行了TOP-N推荐;并利用ALS矩阵分解改善了O2O数据原本的稀疏问题;3)提出了一种全新的显隐式变加权混合策略,引入隐式反馈数据和显式数据作混合推荐,使得权值混合推荐更个性化,针对性更强。通过设立公共权值进行初步推荐,设立用户个性权值,让显式和隐式数据权重交由用户自控并可视化权值对推荐的改进,反馈个性权值改进公共权值,形成了一种权值可变的自学习个性化混合推荐策略。本文最后针对方案进行了测试与评估,在数据超过十万以上规模的情况下,平均绝对误差MAE相较传统算法降低近7.5%,平均正确率均值MAP较SPCF和分布式UserCF分别提升近4.64%和3.27%。平均百分比排序MPR进行测试,达11.7%。本文研究对推荐性能的提升得到了验证。