论文部分内容阅读
推荐系统是一种信息过滤技术,它能够根据用户的历史行为用户推荐其可能感兴趣的信息,这使它有着重要的应用价值。推荐系统的应用十分广泛,例如,在电商领域可以用来给用户推荐他们可能感兴趣的商品,在新闻推送领域可以给用户推荐他们所感兴趣的实时新闻。本文介绍了推荐系统的发展和应用,并从基于用户信息的推荐、基于物品内容的推荐和协同过滤推荐三个方面总结了该领域的研究进展以及当前的一些研究热点,并阐述了当下推荐系统的研究的主要挑战,其中包括推荐系统中的大规模凸优化问题。针对推荐系统中的凸优化问题,本文回顾了该领域中一些常用的优化算法以及它们在应对大规模数据的挑战时所进行的一些改进,并对它们各自的优缺点进行了分析。最后,本文选取了在推荐系统的凸优化问题中广泛适用的割平面方法进行了研究。针对数据密集型场景,本文提出了两种高效的优化方法:(1)面向单机计算环境,本文提出了一种基于割平面方法(Cutting Plane Method)的在单机环境下采用了 Mini-Batch策略的优化算法,本文称之为Mini-Batch Cutting Plane Method(MBCPM)。该方法使用小批量数据进行模型参数的迭代更新,相比于标准割平面方法大大提升了的迭代速度。同时,为了防止采样数据中的噪声影响MBCPM的收敛,该方法还使用了一种称之为异常平面消除的方法。本文对该算法的理论分析表明,该算法能够得到一个跟标准割平面方法形式相似的收敛率。基于MovieLens 20M这一真实电影评分数据集的实验表明,目标函数在所提出的MBCPM方法上比在标准CPM方法上要下降得快。(2)面向集群环境,本文提出了一种基于Bundle Method for Regularized Risk Minimization(BMRM)的可以在集群环境下使用的分布式异步优化算法,本文称之为 Asynchronous Bundle Method for large scale regularized risk minimization(Async BMRM)。该方法通过采用异步窗口,它允许集群中的不同节点以不同的速度进行迭代,因此可以有效解决因为评分数据不均衡所带来的计算负载不均衡的问题。本文对所提出算法的理论分析表明,该算法的收敛性是能够得到保证的。同时,基于MovieLens 20M这一真实电影评分数据集的实验表明,Async BMRM相比于同步实现的BMRM算法能够减少通信等待时间,使得目标函数下降得更快。