基于标签迁移学习的推荐技术及应用

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:reefstone
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息科技的不断变革和经济一体化逐步实现,互联网也进入了高速发展的行列。2018年5月在Code大会上发布的互联网趋势报告显示,近些年来网络用户呈爆发式增长,2017年全球互联网普及率达到了49%,预计于2018年将增至50%。据统计,在全球大数据进入加速发展时期后,全球数据总量每年将以50%的速率增长,全球数据量将在2025年增至176ZB。面对如此海量的数据信息,如何缓解信息过载的问题从而快速、高效地帮助用户获取有用的信息是当今数据科研方面所面临的重要挑战之一。推荐系统(Recommender Systems,RS)作为可以有效缓解信息超载问题的方法之一,通过剖析用户与项目之间的二元映射,为目标用户在海量信息数据中找到其可能喜爱的个性化项目,并生成推荐列表。基于标签信息的个性化推荐技术利用用户对项目的标记信息为其推荐可能偏好的物品。然而,现有的基于标签的推荐方法仍受到以下与数据特征相关的挑战与限制:1)在为目标用户个性化推荐时往往倾向于给使用频率较高的标签赋予较大的权重,导致权重偏差,降低了推荐结果的新颖性和准确性;2)用于训练模型的源域数据集与用于检验模型的目标域数据集应满足独立同分布的假设;3)具有标签的源域数据集通常十分稀疏且难以获得,必需拥有足够多的且可用的训练数据才能训练出优秀的推荐模型。针对上述问题,本文主要贡献如下:1.针对权重偏差问题,提出了一种标签熵特征表示的协同过滤个性化推荐算法。首先利用标签信息熵度量标签的不确定性,对热门标签进行削弱;然后利用三分图形式描述0)-(62)-0)8)之间的关系,构建基于标签熵特征表示的用户与项目的特征表示,并通过特征相似度计算方法得到不同项目间的相似度;最后利用用户使用标签和项目相似性线性组合预测用户对项目的偏好值,并按照预测评分进行排序,生成最终推荐列表。在Last.fm数据集上的实验结果表明,该方法能够提高推荐结果的准确性和新颖性,满足不同用户的个性化需求。2.针对用于训练模型的源域数据集与用于检验模型的目标域数据集应满足独立同分布的假设及数据稀疏性问题,提出了一种基于标签特征信息迁移学习的推荐算法,将从源域数据中学习得到的用户及项目特征信息迁移到目标领域的数据中。首先在较为稀疏的源域数据集中通过标签构建项目的特征表示,根据用户选择项目集的行为数据计算用户的特征表示;然后,在较为稠密的目标域数据集中根据选择项目的用户群体来度量项目的特征;之后,在目标域数据集上对用户、项目的特征表示进行平滑处理,消除不同用户评分尺度及不同数据集评分范围所带来的影响;最后将用户、项目隐性特征应用到标签熵特征表示的协同过滤个性化推荐算法中,设计与构建了基于标签特征信息迁移学习的推荐方法,完成目标项目推荐。在Movie Lens数据集上的实验结果表明,该方法可以有效缓解数据稀疏性问题,提高了推荐的准确性。3.基于上述提出的推荐算法,本文设计与实现了一个音乐推荐应用系统。基于Spring、My Batis以及Spring MVC框架,采用Java、Python、HTML以及JQuery技术作为开发语言。利用Python封装的接口计算用户数据,将标签矢量化,根据用户以及项目使用标签的历史记录,构造用户及项目的特征表示和项目相似性,为用户推荐其可能会感兴趣的音乐。通过在Java中集成Python,调用Python脚本文件,为用户动态返回推荐结果。该系统用户只需要提供目标用户的ID,系统后台将根据用户的行为数据,最终为目标用户生成其可能喜爱的Top-5音乐推荐。
其他文献
农村老年人养老问题是当前政府和社会广泛关注迫切需要解决的问题,但随着经济社会转型发展,农民养老观念和意识发生很大转变,尤其对农村贫困老年群体而言,虽然政府采取一系列
Parisian破产的概念最初来自于Parisian期权.Parisian破产有两种定义方式,固定时间的延迟和随机时间的延迟.混合观测体系(hybrid observation scheme)下的Parisian破产是在文
科学家在对Cu基、Fe基超导体研究时发现,高温超导体往往与反铁磁毗邻,所以反铁磁与超导共存的化合物一直是研究者关注的重点。近期报导CeNi0.88Bi2体系中存在反铁磁有序和超导转变,但有学者对该体系是否是本征超导还存在争议,所以我们希望通过合成该体系同结构多种化合物来系统研究该体系的物性。本文内容分为两个部分,第一部分介绍RPd1-δBi2单晶的合成以及物性研究。第二部分介绍了 RNi1-δBi
光电探测器是一种典型的光电器件,常用于识别和处理光信号。而且半导体光电探测器是实现机电一体化的重要组成,在光通讯、生物医学传感、成像系统、环境监测等诸多领域都有应用价值。为了满足下一代电子电路和生产生活的需求,迫切需要设计和构建具有可调光谱响应范围、自驱动以及光探测性能高的光电探测器。所以本文的主要研究内容是从硅基底的不同纳米形貌出发设计功能性光电探测器,主要的研究结果如下:1.硅纳米线(Si N
传统时期,村庄水利设施通常由国家、乡绅、士绅等精英治理主体进行治理,然而位于长江沿岸一普通村庄,虽并未采取这一治理方式,但同样能实现村庄水利设施建设。在调研的过程中
本论文设计了一款以CM级传感器为核心的VFTO测量系统,首先对测量系统采用的电容分压原理进行理论分析,确定影响测量系统的主要参数;其次通过Pspice对各主要影响因素进行仿真,确定测量系统内部设备参数;最后通过实验室高压方波、低压工频、高压脉冲实验进行高频、低频和稳定分压比的验证,对实验结果分析表明测量系统满足VFTO测量要求。然后,进行GIS中VFTO的暂态仿真,根据GIS中各节点设备的等效模型
目的:本研究临床实验为基础。观察并探讨ANX A2、TLR4与抗心磷脂抗体阳性复发性流产之间的关系,及补肾活血方对抗心磷脂抗体阳性复发性流产患者血清P、β-HCG、ANX A2及TLR4
众智现象在我们人类生活与自然界中随处可见。在我们的生活中我们时常会遇到很多的众智现象,例如,以多数人参与的投票表决机制,外包活动中的众包,电子商务平台、网络化生产制
亚硫酸氢盐(HSO3–)是环境污染物SO2在环境中的主要存在形式,并且常被用作防腐剂添加在食品及药品中。摄入过多的外源性HSO3–易使得人体患上一系列诸如哮喘等呼吸道疾病。同时
1990年前后全国各地掀起了城镇化建设潮流,新型城市、新型乡村等一系列的建设目标被列入各地政府工作报告,城镇化建设进入了“快车道”。但在分税制改革后,地方政府财政实力