Personalized Recommendation Based on Transfer Learning

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:jinyu1016
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术的发展和互联网规模的迅速扩大,人们可以方便接触到越来越多的网络信息。在面对爆炸式增长的信息时,人们很难迅速找到他们需要了解的信息。信息的增多反而导致了人们获取信息效率的下降,这便是信息过载问题。因此,如何帮助用户在如此海量且复杂的信息中有效地、快速地、准确地获取其所需要的信息或知识,即如何缓解信息过载问题,得到了越来越多的关注和研究。目前,个性化推荐算法是缓解信息过载问题的一个重要手段。它通过分析用户和物品的各种属性信息以及用户与物品之间的各种交互数据,挖掘用户潜在的偏好信息以准确地预测用户的偏好,并为用户提供个性化推荐服务,使用户能够在大量的商品中快速有效地找到自己需要的商品或服务。个性化推荐算法从被提出到现在已经成为了一个独立的研究方向,经历了不断的发展,其中新颖的推荐方法更是层出不穷,其准确率在不断地提高。然而,尽管个性化推荐算法日趋成熟,但是依然存在一些问题需要解决,其中最严峻的问题便是数据稀疏问题,数据的缺失对个性化推荐算法的准确度有很大负面影响。为了解决个性化推荐算法面临的数据稀疏问题,有学者提出将迁移学习思想应用到个性化推荐算法中。迁移学习的主要思想是:先寻找与目标领域相关的且数据较为稠密的领域作为辅助域,辅助域中的数据作为辅助数据,然后用合适的方法从辅助数据中提取公共的关键知识和信息,再将这些知识和信息运用适当的方式迁移到目标数据中,帮助目标领域中的数据进行训练。而应用在个性化推荐算法中的迁移学习思想,就是将评分数据作为目标数据,将与其联系密切的、可能对其预测有帮助的数据(如其他领域的评分数据)作为辅助数据,然后运用适当的方法从辅助数据中提取两个数据源公共的关键知识和信息,并将其迁移到目标数据中,以帮助推荐算法更好地在目标域中进行评分预测,提高推荐准确度。已有大量实践证明迁移学习是缓解个性化推荐过程中遇到的数据稀疏问题的有效方法。然而,现有的结合了迁移学习思想的个性化推荐算法仍存在一些问题和不足,需要进一步改进。现阶段基于迁移学习思想的个性化推荐算法主要面临两个问题:第一,当使用迁移学习思想进行跨领域推荐时,现阶段的模型、算法很少考虑两个领域之间的差异,而这种差异可能导致数据的负迁移,从而使推荐精度降低。第二,现阶段的模型、算法在实际应用中的过程一般是先寻找数据密集型辅助域然后进行知识迁移和跨领域推荐,但在现实中可能找不到与目标域相似的数据密集型辅助域,并且许多个性化算法在进行推荐时忽略了邻近用户的重要性。因此如何使用迁移学习思想在单领域内进行个性化推荐且考虑到邻近用户的影响是我们面临的一个挑战。本文对于上述两个问题进行了针对性研究,具体来说,本文的主要工作如下:(a)本文提出了一种基于潜在特征聚类的跨域推荐模型KSCBT(Knowledge Separatcd Codebook Transfer),KSCBT 模型是针对码本迁移模型 CBT(Codebook Transfer)的改进。CBT模型首先将辅助评级矩阵中的评级压缩为一个信息丰富且紧凑的集群级评级模式表示,称为码本。然后,CBT提出了一种通过扩展码本重构目标评价矩阵的有效算法,将辅助域的评分模式迁移到目标领域中。然而,CBT模型没有充分考虑不同领域之间的差异性。本文提出的KSCBT模型在CBT的基础上,不仅学习不同领域之间的“共享知识”,而且学习各个领域之间的“特殊知识”。“特殊知识”代表了仅属于各个领域的“知识”部分,这部分“特殊知识”可以在一定程度上缓解迁移学习中的过度拟合问题。KSCBT的具体过程为:先用一个自适应的码本迁移模型ACTL(Adaptive Code-book Transfer Learning)从源领域获取一个尺寸k x 1 的码书,该码书的尺寸是最适合辅助领域的,既没有冗余信息,又最大限度保留了目标域的评分信息。然后利用CBT在目标领域构造一个尺寸大小同样为k x l的码书。接着利用DP距离匹配算法计算两个码书之间各个维度之间的相似度,通过相似度来决定哪些维度是公共知识可以迁移,哪些是私有知识进行保留。本模型的实验数据集采用推荐系统中三个用于研究的公开的数据集:MovieLens数据集,EachMovie数据集,BookCrossing数据集。其中MovieLens数据集作为辅助域,EachMovie数据集和BookCrossing数据集分别作为目标域。实验过程中,我们使用KSCBT模型将从MovieLens数据集中学习到的公共知识迁移到EachMovie和BookCrossing中,同时又保留了目标域的私有知识。实验对比结果显示,KSCBT模型的MAE和RMSE值小于其他包括CBT模型在内的基线模型的MAE和RMSE值,说明KSCBT模型有着更高的推荐准精度。(b)本文提出了一种基于迁移学习的单域推荐模型SRACK(Single-domain Recommendation Based on Auxiliary-domain Constructed and KSCBT)。在该模型中主要由三个新算法和KSCBT组成,三个新算法为:构造二元偏好辅助数据算法B-ADC(Binary-preference Auxiliary Data Construction),基于稀疏数据的用户相似度计算算法 SCBSD(Similarity Calculation Based on Sparse Data),结合了矩阵分解和迁移学习思想的个性化推荐算法FTN(Factorization Transfer based on Neighbors)。SRACK的具体组成和过程为:辅助数据构造算法B-ADC,我们利用B-ADC算法从原始评分数据中构造二元偏好辅助数据来创建辅数据,解决了现实中找不到符合要求的辅助域问题,以及一定程度避免了辅助数据与目标评分数据相关性低导致推荐性能下降的问题。接着我们提出一种基于稀疏数据的用户相似度计算算法SCBSD,SCBSD将数值相似度计算和结构相似度计算充分结合,比传统相似度计算方法更能在数据稀疏的情况下准确地计算用户的相似度。基于SCBSD,我们结合了矩阵分解和迁移学习的思想提出了个性化推荐算法FTN(Factorization Transfer based on Neighbors),FTN算法在进行共同矩阵分解时不只进行了用户的二进制偏好特征到评分特征的迁移,同时考虑到了近邻用户对用户评分的影响。具体做法是FTN将近邻用户的二进制辅助偏好特征和评分特征迁移到邻居评分偏好特征中,并且将近邻用户的评分特征集成到了用户的评分预测中。在选择近邻用户时,FTN采用了上文提到的基于稀疏数据的用户相似度计算算法SCBSD。SRACK用B-ADC和FTN预测了目标域中的空缺值。然后利用迁移后得到的新的用户评分偏好特征和邻居用户评分偏好特征预测结果。本文没有直接将预测结果作为最终结果,而是将预测结果作为辅助域,利用KSCBT模型进行处理后得到最终结果,这样可以再进一步过滤掉一些B-ADC+FTN预测的一些与原始数据不够“相似”的知识信息,可以使得推荐结果更精确。这样相当于目标领域利用自己的数据,用B-ADC和FTN构造了一个辅助域,再利用辅助域进行“跨领域推荐”。本模型的实验数据集采用推荐系统中两个用于研究的公开的数据集:MovieLens数据集,EachMovie数据集。分别将两个数据集作为目标域进行实验,利用SRACK模型对两个目标域分别进行训练和预测。实验的对比结果显示,SRACK模型的MAE和RMSE值小于其他的单领域个性化推荐的基线模型的MAE和RMSE值,说明了SRACK模型拥有更优秀的推荐性能。关于本文工作的总结如下:本文提出的两个新模型KSCBT和SRACK,KSCBT是针对利用迁移学习思想进行跨领域推荐时,利用区分私有知识和公共知识的方法,缓解了负迁移问题;SRACK模型的目的是在无法找到合适辅助域利用迁移学习思想进行跨领域推荐的情况下,在单领域中利用迁移学习思想进行个性化推荐,其实验结果也表明SRACK优于一些没有应用迁移学习思想的单领域个性化推荐算法以及一些跨领域推荐算法。在未来的工作中,针对KSCBT模型,在获取码书时,使用ACTL算法只能获取最适合源领域的码书尺寸,该尺寸不一定是最适合目标域的,如何平衡码书尺寸是未来的挑战;针对SRACK,其复杂度较高,在大数据背景下能否有出色性能也有待检验。
其他文献
学位
灯具作为一种具有照明功能的生活用具,不仅是一种物质文化形态,更是一种精神文化的反映,它的造型艺术寄托了人们的思想观念,同时展现了中国汉代的工艺美术、科技创新、社会生活等,凝结了人类的智慧和技术。文章主要分为六个章节。第一章为绪论,主要论述研究范围为川渝两地,研究对象为川渝两地考古发现的400余件汉代(公元前206年-公元220年)灯具。第二章对川渝地区汉代灯具进行分型分式研究。灯具材质主要有陶、铜
随着新课程改革的不断推进,对课程资源的开发和利用提出了新的要求。博物馆作为一种重要的校外课程资源,有助于我们拓宽历史教育途径,深化历史教育内涵,培养学生家国情怀。重庆中国三峡博物馆是一座集“抗战文化、三峡文化、移民文化”等为一体的综合性博物馆,可利用和开发的历史课程资源非常丰富。笔者在梳理整理博物馆课程资源的基础之上,通过结合历史课程标准的要求,设计出不同类型的教学案例,提供对博物馆课程资源运用的
学位
近年来,在我国全面推进基础教育改革的背景下,农村基础教育的发展取得了实质性的进展,但相较于城市中先进的基础教育发展水平还存在一定的差距。农村初中“教非所学”教师作为农村教师中的一个特殊群体,面临着“农村教育资源匮乏”和“缺少学科专业背景”的双重问题,这也使得该类教师群体在教学实施能力方面的表现稍显不足,而教学实施能力是教师课堂教学质量的重要保证,也对农村教师队伍的建设具有重要意义。因此,如何提升农
学位
学位
学位
语文教学一直以来存在教师主导课堂和以考试知识点为主,课堂效率不高的问题,语文课程改革致力于解决语文教学中所遇到的问题。以单元主题进行的单元整体教学适应了新课程改革的要求,是构建语文课堂教学高效率的一种教学模式,它有助于改变传统单篇教学的少、慢、差、费弊病,使语文课堂教学效率得到显著提高,而且把课堂的自主权交给了学生,以学生为主体,让学生在学习和思考的过程中,获得自身特有的情感体验,从而更好的提高语
学位