论文部分内容阅读
推荐是指根据用户的兴趣特点和历史行为,为用户推荐用户感兴趣的信息或商品。因其具有重要的理论价值和广泛的应用前景,推荐算法的研究一直备受关注,它与许多机器学习和数据挖掘领域的基本任务(如分类、聚类等)密不可分。近年来,电子商务以及各种在线服务和应用的蓬勃发展对推荐任务提出许多新的挑战。例如,新用户不断涌现,传统基于分析用户历史行为的推荐算法无法为缺乏历史记录的新用户提供有效推荐;网络数据冗余度高,除了推荐结果的精度要求,多样性也成为影响用户体验的重要方面;网络数据日新月异,同一时间不同地点的数据也存在巨大差异,传统推荐算法无法适应数据在时间空间上的动态性,难以为用户提供及时的个性化的推荐结果;此外,随着数据规模的不断增大,如何加速推荐算法也成为重要的挑战之一。针对这些新形式下的挑战,本文的创新点可归纳如下:多样化推荐算法:本文提出基于熵正则化因子的多样化推荐算法。我们在物品特征矩阵上定义熵正则化因子,熵正则化因子的几何特性使它可以自然地刻画一个物品集合的多样性;它的代数特性使得我们能够设计有精确理论上界的近似算法来求解目标函数,找到符合用户兴趣特点且多样化的物品集合。冷启动推荐算法:本文提出基于内容的组合式多臂老虎机模型,并将其应用到冷启动推荐任务中。与标准的多臂老虎机模型不同,这种模型考虑以特征向量表示的组合式老虎机臂。基于这种老虎机模型的冷启动推荐算法为新用户推荐物品集合,收集用户的反馈,不断优化推荐结果。动态数据模型:本文提出基于函数式狄利克雷过程的动态数据模型。针对网络数据在时间和空间上的动态性,我们提出可随任意协变量(如时间、空间等)变化的非参数话题模型。这一模型可用来对文本、图像等数据建模,提取随时间或空间变化的话题,可用来提高推荐结果的满意度。快速聚类算法:本文提出基于稀疏嵌入的快速k均值聚类算法。k均值算法是最重要的聚类算法之一,在推荐任务中应用广泛。在本文中,针对高维网络数据,我们设计了快速有效地特征提取方法,使得压缩后低维数据的k均值算法的解近似原来高维数据的k均值算法的解。我们从理论上严格证明了该快速算法的近似比,从而保证算法的有效性和广泛适用性。