基于深度学习的混合式隐语义推荐模型研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:popoxin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现如今,随着智能设备更新速度加快,人们的生活方式和生活习惯不断发生变化,互联网已经成为人们在日常生活中获取信息最方便快捷的渠道。但是,在互联网为人们生活带来便利的同时,“信息爆炸”也随之而来。推荐系统和搜索引擎,作为两种不同的信息过滤技术,均可以有效地缓解信息过载给网络所带来的问题。与搜索引擎不同的是,推荐系统是一种隐式、主动的个性化信息过滤技术,它不需要用户的显示触发(如:主动提供检索关键词),它可以根据用户的显示评分记录和隐式浏览点击记录等历史数据作为判断依据,为目标用户缩小用户可能会感兴趣的项目规模。例如,推荐系统可以帮助内容提供方(门户网站、自媒体、商家)更好地定位潜在客户,从而为商家带来丰厚的经济利益;同时,推荐系统还可以帮助用户更加准确地发现目标商品,节省用户的信息过滤时间,提升用户对内容的满意度以及对内容提供方的忠诚度。据统计,Netflix1的观影记录80%来自于Netflix网站的推荐系统[1],YouTube2上60%的视频点击来自于YouTube的主页推荐[2]。此外,推荐系统的应用不仅仅局限于视频网站的应用上,在我们身边,推荐系统随处可见。推荐系统可以为人们推荐商品、音乐、餐馆、工作职位、理财产品等等。可以看出,推荐系统已经成为人们生活中不可缺少的一部分。因此,对于推荐系统的核心算法进行深入地分析研究是非常有意义的,也是十分必要的。根据推荐策略及实际应用场景的不同,常用的推荐系统可以被分为三类:基于协同过滤的推荐系统、基于内容的推荐系统和混合式推荐系统。基于协同过滤的推荐系统旨在利用物品与物品、用户与用户、用户与物品间的关系进行推荐;基于内容的推荐系统则是从用户已进行反馈的内容出发,通过比对待反馈内容与已反馈内容的相似性,找到用户可能感兴趣的内容;混合式推荐系统则是将以上两个策略的优势相结合,同时考虑物品的内容信息与协同交互关系来发现更为精准的推荐内容。从模型的实际效果来看,混合式推荐系统要优于基于协同过滤的推荐系统,基于协调过滤的推荐系统要优于基于内容的推荐系统。在基于协同过滤的推荐系统中,隐语义模型(Latent Factor Model)是一类预测效果最好、应用场景最广的推荐模型。顾名思义,“隐语义”是该模型的核心,具体体现在模型可以根据用户与物品间的评分矩阵,将用户和物品映射到一个共享的隐式特征向量空间(latent vector space)中,利用隐式特征向量(latent factor vector)分别表示用户和物品,然后在隐式特征向量的基础上,对用户评分进行建模,从而完成评分预测。最后,系统可以根据预测好的评分为用户进行推荐。由于隐语义模型适用场景多、实现简单并且评分预测准确率高,因此许多推荐系统的核心思想都是以“隐语义”思想为基础。尽管隐语义模型有着上述诸多优点,但随着数据规模日益庞大,用户评分矩阵越来越稀疏,仅仅以用户物品间的评分为依据的传统隐语义模型在预测效果上受到很大程度的影响。同时,通过深入分析传统的隐语义模型的内在机制我们发现隐语义模型还存在许多可以提升的方面:1)用户的偏好是多种多样的,而传统的隐语义模型构建了一种固定的用户隐式偏好向量表示,没有将用户偏好的“个性多样化”特征考虑进来;2)除了用户物品的评分矩阵外,与推荐系统相关的公开数据集中包含着大量与物品相关的辅助信息(side-information),如物品特征的文字描述、用户对物品的文字评价和物品的图像信息等等,但是在构建物品隐式特征向量时,传统的隐语义模型并没有将这些辅助信息考虑进来;3)用户偏好与物品特征间有着紧密复杂的联系,但是传统的隐语义模型在预测用户评分时只利用了简单的内积计算(dot production)来建模用户偏好向量和物品特征向量间的交互关系。针对上述可改进的方面,本文以用户物品评分矩阵为主,融合大量辅助信息,从用户、物品以及用户物品间的关系这三个方面,结合混合推荐系统的思想,提出三种新颖有效的混合隐语义模型来缓解评分矩阵稀疏对隐语义模型的影响,同时提升隐语义模型的评分预测准确度。首先,针对隐语义模型用户偏好向量缺乏“个性多样化”问题,本文提出一种自适应性深层隐语义模型(Adaptive Deep Latent Factor Model--ADLFM)。ADLFM模型将物品文本描述与用户物品间的评分矩阵相结合,利用卷积神经网络抽取全局高阶语义特征,构造用户偏好向量及物品特征向量。同时,利用注意力机制实现一种“自适应性”用户偏好表示方法,该表示方法可以根据某一特定待评分物品对用户偏好向量进行动态构建,将注意力集中在与待评分物品相关的局部偏好上,使用户偏好的表达更加准确,进一步使评分预测更加精确;接下来,针对传统隐语义模型通常只利用单一信息源来学习物品特征向量的情况,本文提出一种基于多模态特征融合的隐语义模型(Deep Latent Factor Model with Fusion of Multi-modal Features--FLFM)。受信息检索领域中的跨模态检索(Cross-Modal Retrieval)的启发,本文设计了一个新颖的物品多模态特征融合模块,可以有效地将物品的文字描述信息与物品的图像信息进行融合,学习到更加贴切的物品特征向量,从而提高评分预测的准确率;最后,针对传统隐语义模型在对用户偏好与物品特征间的关系进行建模时过于简单的问题,本文提出一种基于层次化度量的深层隐语义模型(Deep Latent Factor Model with Hierarchical Similarity Measure--DLFM-HSM),DLFM-HSM模型将传统隐语义模型中的用户偏好向量替换为用户偏好矩阵,使得用户的偏好可以被更加全面地表示出来。通过对用户评分进行层次化建模,DLFM-HSM可以有效地区分出用户对物品不同特征的局部偏好,并放大这些局部偏好,从而将用户与物品间的关系准确刻画出来,提高评分预测的准确度。此外,与层次化建模相关的层次相似度度量方法不包含任何参数,因此不需要额外的参数训练。大量实验结果表明,本文提出的三个混合式隐语义模型可以有效地缓解数据稀疏所带来的问题,提高评分预测的准确率。
其他文献
基于生物电信号的人机接口是一种新型的人机交互技术,使用人体自身的生物电信号构建与外部设备直接相连的通道。目前主要采用的生物电信号有脑电信号(EEG)及表面肌电信号(sEM
目的在pH3.0的弱酸性介质中,盐酸丁卡因(TA.HCl)与曙红Y(EY)形成1∶1的离子缔合物,导致曙红Y溶液在521 nm处同步荧光猝灭(Δλ=25nm)。荧光猝灭值(ΔF)与TA.HCl浓度在0.18-3.0μg.mL^
摘 要:计算机技术在当今社会生活中的应用范围越来越广,各大高校针对计算机网络实验教学上的改革也逐步展开。虽然在各个高校内部已经形成了计算机基础课程亟待改革的忧患意识,但具体落实到实践层面依然是困难重重,导致广大学生仍旧无法重视计算机学习,自然也就难以实现技能的提高。因此,高校需要尽快深入开展计算机网络课程及其实验教学方面的改革。   关键词:计算机;网络课程;教学改革   在高校范围内进行计算机网
【正】 辞书研究,是一门很有分量的、具有广度和深度的学问。且不说别的,当我信手翻到一本《辞书研究》1983年第四期的时候,不读犹可,只表面现象地得知是一册研究辞书的期刊,
摘要:与传统的教学模式相比,基于OBE的混合式教学模式增加了学生与教师、学生与学生之间的沟通、交流、反馈和互动,注重强化对教学过程的监督和管理,更加明确学生的学习目标,对于增强学生的学习积极性和提高其学习成绩有显著的效果。  关键词:OBE理念;混合式教学;探索  “学校的中心工作是教学,教育教学质量是一个学校的生命线。”因此,提高教育教学质量一直是每个学校、每个部门、每名教师工作中的重点。为了提
数学拓展性课程的兴起,既是课程创新的有益探索,又是儿童数学的理性回归。执教者要开发数学拓展性课程,努力让拥有数学天赋与特长的孩子获得更好的发展,让数学学习有困难的学
研究背景胎儿发育是一个复杂的过程,发育过程中容易受遗传以及各种理化因素的影响,而产生各种畸形。胎儿脊柱、脊髓是人体的重要结构,也是胎儿发育的重要组成部分。胎儿脊柱
本文介绍了气体分馏车间车间塔顶空冷风机破坏性振动造成的损害,分析了空冷风机振动的机理,通过实际测量的振动数据证明了增加刚性支撑是降低振动振幅和振速的合理手段。
【正】 由吉林大学编写的《汉日词典》经过五年的努力编纂已全部完成,即将由吉林省人民出版社出版,并由中国国际书店对外发行。《汉日词典》共收词5万5千余条,约350万字,是一