基于改进SVD和迁移学习的矩阵分解推荐算法研究

来源 :北京交通大学 | 被引量 : 3次 | 上传用户:yizhonglishi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展,人们的生产,生活和娱乐等活动越来越多的以数据形式记录下来。在当今火爆的电子商务领域,通过挖掘用户的在线行为(如评分、评级、浏览)所体现的兴趣爱好而进行个性化的信息推荐被认为是最有应用价值的方向之一。目前的推荐算法融合了各种类型的数据,像评分数据、用户项目属性信息、社交网络信息、标签评论甚至移动位置的相关数据,异构的用户数据中蕴含着大量的用户偏好信息,如果能够采用合适的模型充分挖掘出用户的偏好,过滤噪音,将能够提高推荐准确率、提升用户体验,从而产生巨大的经济效益,目前推荐算法已经成为学术界和工业界的研究热点。虽然这些大量的数据为推荐算法提供了良好的数据基础,但是由于数据的规模大、维度多甚至稀疏性问题,导致了算法的推荐准确性、实时性方面仍有很大的提升空间。本文通过分析用户的评分数据、项目的属性数据以及用户的异构反馈数据,完成如下工作:(1)针对目前的矩阵分解算法在解决数据稀疏性问题时,没有充分利用项目的属性信息与用户评分行为的交互信息,提出了加入用户对项目属性偏好的奇异值分解算法UC-SVD算法,综合考虑项目属性和用户评分行为,构建了用户对项目属性的偏好矩阵,表示了用户对某种类型的项目的偏好程度,并将项目属性特征和用户对项目属性偏好特征因子加入到矩阵分解模型中,一定程度上弥补了原始评分数据的数据稀疏性。(2)针对推荐算法准确率的问题,提出了将显式的评分数据和用户隐式反馈数据结合的HFBT算法,我们分两步处理与显式评分数据异构的用户隐式反馈,首先利用SVD++算法处理隐式反馈的思想,我们引入了用户喜欢项目的偏好因子和用户不喜欢项目的非偏好因子,将这两种因子整合到矩阵分解模型中;然后通过迁移学习思想,将加入隐式反馈的矩阵分解模型作为迁移的辅助源领域,迁移项目的特征因子到目标评分域中,并保持用户特征因子间的相互影响,使最终的模型达到更好的推荐准确度。(3)针对HFBT参数中多参数、收敛效率不高的问题,在Spark平台下对HFBT算法进行了并行化设计实现,有效的提高了算法的效率和扩展性。在真实的Spark集群环境下将HFBT算法与其他推荐算法进行了对比实验,使用了三个数据集验证了推荐的准确性。结果表明,本文提出的推荐算法不仅在推荐的准确性方面有很大的提高,而且算法在大规模的数据集下具有良好的可扩展性。
其他文献
近日,筹建三年的北京生命科学研究所正式挂牌运转。这标志着北京生命科学研究所历时3年多的筹备和建设工作圆满完成。
瞿秋白《多余的话》既反应着作者深刻解剖自己正直知识分子的真诚 ,又体现着他要给后人留下一段真实历史的责任感 ,既抒写着他对毕身追求的理想受到损毁乃至失落的悲情 ,又表
安徽临泉县地处黄淮海平原腹地,县域经济长期以农业为主体,是典型的经济欠发达的农业大县。如何提高临泉经济发展的总体水平,缩小与发达地区的差距,新任县长李新才在大量调查
<正>在攀枝花,比较经典的地名是"弄弄坪"。究其来历,在攀枝花民间有很多版本,主要有如下三种:版本一:邓小平听有关部门汇报攀枝花钢铁基地建设情况时,有人说那儿地势不平,不
珠江三角洲公用事业民营化的政策禁区已经突破,并已取得一定进展,但范围十分有限,立法滞后;为了推动珠江三角洲公用事业民营化继续向前发展,必须充分发挥政府在公用事业民营化进程
随着消费者低碳意识的不断提高,消费者对产品的需求将是产品价格、质量和碳排放等因素的综合函数,零售商由于接近市场终端,对消费者低碳偏好具备完全信息并由此形成买方抗衡势力
1“十二五”发展回顾“十二五”期间,饲料工业抓住规模养殖加快发展的战略机遇,坚持开源节流优化原料供应,健全制度规范生产经营秩序,强化科技、人才与资本支撑,提升企业素质,饲料
以秦皇岛220 kV长距离联络线降损方案为实例,简要对比几种联络线线损率,得出与唐山220 kV电磁环网的解环运行方式将最有利于降低线路率,以期为类似长距离联络线降损方案提供
日本第一条地下商业街完成于1932年。至1985年,共建有76处地下商业街,总面积818,000平方米。其中,约27.4%为公共步行道等;29.5%为商店;26.6%为停车场所;16.4%为机械设备等占
延安时期,毛泽东根据中国社会特殊的历史背景和时代发展的要求,在探寻如何取得战争的胜利、实现中华民族复兴的过程中形成了中国化的民主理念。对延安时期毛泽东民主理念的创