论文部分内容阅读
现如今,随着智能设备更新速度加快,人们的生活方式和生活习惯不断发生变化,互联网已经成为人们在日常生活中获取信息最方便快捷的渠道。但是,在互联网为人们生活带来便利的同时,“信息爆炸”也随之而来。推荐系统和搜索引擎,作为两种不同的信息过滤技术,均可以有效地缓解信息过载给网络所带来的问题。与搜索引擎不同的是,推荐系统是一种隐式、主动的个性化信息过滤技术,它不需要用户的显示触发(如:主动提供检索关键词),它可以根据用户的显示评分记录和隐式浏览点击记录等历史数据作为判断依据,为目标用户缩小用户可能会感兴趣的项目规模。例如,推荐系统可以帮助内容提供方(门户网站、自媒体、商家)更好地定位潜在客户,从而为商家带来丰厚的经济利益;同时,推荐系统还可以帮助用户更加准确地发现目标商品,节省用户的信息过滤时间,提升用户对内容的满意度以及对内容提供方的忠诚度。据统计,Netflix1的观影记录80%来自于Netflix网站的推荐系统[1],YouTube2上60%的视频点击来自于YouTube的主页推荐[2]。此外,推荐系统的应用不仅仅局限于视频网站的应用上,在我们身边,推荐系统随处可见。推荐系统可以为人们推荐商品、音乐、餐馆、工作职位、理财产品等等。可以看出,推荐系统已经成为人们生活中不可缺少的一部分。因此,对于推荐系统的核心算法进行深入地分析研究是非常有意义的,也是十分必要的。根据推荐策略及实际应用场景的不同,常用的推荐系统可以被分为三类:基于协同过滤的推荐系统、基于内容的推荐系统和混合式推荐系统。基于协同过滤的推荐系统旨在利用物品与物品、用户与用户、用户与物品间的关系进行推荐;基于内容的推荐系统则是从用户已进行反馈的内容出发,通过比对待反馈内容与已反馈内容的相似性,找到用户可能感兴趣的内容;混合式推荐系统则是将以上两个策略的优势相结合,同时考虑物品的内容信息与协同交互关系来发现更为精准的推荐内容。从模型的实际效果来看,混合式推荐系统要优于基于协同过滤的推荐系统,基于协调过滤的推荐系统要优于基于内容的推荐系统。在基于协同过滤的推荐系统中,隐语义模型(Latent Factor Model)是一类预测效果最好、应用场景最广的推荐模型。顾名思义,“隐语义”是该模型的核心,具体体现在模型可以根据用户与物品间的评分矩阵,将用户和物品映射到一个共享的隐式特征向量空间(latent vector space)中,利用隐式特征向量(latent factor vector)分别表示用户和物品,然后在隐式特征向量的基础上,对用户评分进行建模,从而完成评分预测。最后,系统可以根据预测好的评分为用户进行推荐。由于隐语义模型适用场景多、实现简单并且评分预测准确率高,因此许多推荐系统的核心思想都是以“隐语义”思想为基础。尽管隐语义模型有着上述诸多优点,但随着数据规模日益庞大,用户评分矩阵越来越稀疏,仅仅以用户物品间的评分为依据的传统隐语义模型在预测效果上受到很大程度的影响。同时,通过深入分析传统的隐语义模型的内在机制我们发现隐语义模型还存在许多可以提升的方面:1)用户的偏好是多种多样的,而传统的隐语义模型构建了一种固定的用户隐式偏好向量表示,没有将用户偏好的“个性多样化”特征考虑进来;2)除了用户物品的评分矩阵外,与推荐系统相关的公开数据集中包含着大量与物品相关的辅助信息(side-information),如物品特征的文字描述、用户对物品的文字评价和物品的图像信息等等,但是在构建物品隐式特征向量时,传统的隐语义模型并没有将这些辅助信息考虑进来;3)用户偏好与物品特征间有着紧密复杂的联系,但是传统的隐语义模型在预测用户评分时只利用了简单的内积计算(dot production)来建模用户偏好向量和物品特征向量间的交互关系。针对上述可改进的方面,本文以用户物品评分矩阵为主,融合大量辅助信息,从用户、物品以及用户物品间的关系这三个方面,结合混合推荐系统的思想,提出三种新颖有效的混合隐语义模型来缓解评分矩阵稀疏对隐语义模型的影响,同时提升隐语义模型的评分预测准确度。首先,针对隐语义模型用户偏好向量缺乏“个性多样化”问题,本文提出一种自适应性深层隐语义模型(Adaptive Deep Latent Factor Model--ADLFM)。ADLFM模型将物品文本描述与用户物品间的评分矩阵相结合,利用卷积神经网络抽取全局高阶语义特征,构造用户偏好向量及物品特征向量。同时,利用注意力机制实现一种“自适应性”用户偏好表示方法,该表示方法可以根据某一特定待评分物品对用户偏好向量进行动态构建,将注意力集中在与待评分物品相关的局部偏好上,使用户偏好的表达更加准确,进一步使评分预测更加精确;接下来,针对传统隐语义模型通常只利用单一信息源来学习物品特征向量的情况,本文提出一种基于多模态特征融合的隐语义模型(Deep Latent Factor Model with Fusion of Multi-modal Features--FLFM)。受信息检索领域中的跨模态检索(Cross-Modal Retrieval)的启发,本文设计了一个新颖的物品多模态特征融合模块,可以有效地将物品的文字描述信息与物品的图像信息进行融合,学习到更加贴切的物品特征向量,从而提高评分预测的准确率;最后,针对传统隐语义模型在对用户偏好与物品特征间的关系进行建模时过于简单的问题,本文提出一种基于层次化度量的深层隐语义模型(Deep Latent Factor Model with Hierarchical Similarity Measure--DLFM-HSM),DLFM-HSM模型将传统隐语义模型中的用户偏好向量替换为用户偏好矩阵,使得用户的偏好可以被更加全面地表示出来。通过对用户评分进行层次化建模,DLFM-HSM可以有效地区分出用户对物品不同特征的局部偏好,并放大这些局部偏好,从而将用户与物品间的关系准确刻画出来,提高评分预测的准确度。此外,与层次化建模相关的层次相似度度量方法不包含任何参数,因此不需要额外的参数训练。大量实验结果表明,本文提出的三个混合式隐语义模型可以有效地缓解数据稀疏所带来的问题,提高评分预测的准确率。