联合使用边信息和未标记数据的推荐方法研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:hebeihuazi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着互联网的普及,特别是新兴移动应用之间的泛在互连,各类数据呈现爆炸式增长,如何从中快速获取有用信息变得越来越难。在此背景下,推荐系统应运而生,在对抗信息过载问题方面扮演着重要角色。协同过滤(Collaborative Filtering)是构建推荐系统的关键技术之一,其核心思想是从“用户-物品”历史交互数据(如评分)中挖掘用户的潜在信息偏好,并据此为用户预测其未来可能感兴趣的物品。但是,相比于庞大的用户和物品规模,可观测的评分数据显得非常稀疏,进而严重制约了协同过滤算法的推荐性能。为了应对数据稀疏问题,学者们提出使用边信息或未标记数据改善协同过滤算法的推荐性能,两类方法各有所长,但却鲜有结合两种思路的混合研究方案。鉴于此,本文提出一种联合使用边信息与未标记数据的协同过滤方案,以更为有效的方式应对数据稀疏问题,从而获得更大程度的推荐性能提升。该方案在协同训练框架中,采用基于用户近邻的协同过滤方法和基于物品近邻的协同过滤方法初始化两个基推荐器;在后续迭代过程中,每个推荐器独立预测未标记数据并将预测置信度较高的若干伪标记样本加入对方训练集,重新训练,以获得推荐性能渐进式提升;重复该过程,直至收敛。同时,该方案还在用户近邻方法中融入了社交边信息,包括利用社交信息改进相似性计算、更新近邻、升级预测公式等,以此增加两个基推荐器之间的差异性,从而达到更好的协同训练效果。此外,本文还在协同训练框架中增加了伪标记样本的置信度验证环节,用以防止半监督学习算法因误用噪声样本引起的性能衰减。实验结果表明,联合使用边信息和未标记数据可有效缓解数据稀疏问题,本文所述方案的推荐性能明显优于单独使用边信息或未标记数据的其他协同过滤技术。本文主要贡献可归纳为以下三点:1)验证了联合使用边信息与未标记数据的可能性和有效性,为缓解数据稀疏问题提供了新思路;2)提出一种协同训练框架下联合使用未标记数据和社交边信息的协同过滤方案,大幅提升了推荐系统性能;3)将半监督学习与多种社会网络分析技术相结合,一定程度上丰富和完善社会化推荐系统领域的研究内容。
其他文献
旅游业作为第三产业的重要组成部分,具有综合性强、产业关联度高等特点,因被各级政府赞为“无烟工业”而备受推崇。而人类的旅游活动与空气质量为交互性关系,二者密切相关。
檀香(Santalum album)是一种典型的珍贵树种,具有极高的经济价值和药用价值。它原产于澳大利亚、印度尼西亚等国家,近些年来在我国海南省推广种植,但由于管理模式粗放,同时也
导管架平台作为浅海和中深海区最常见的平台,在海洋石油资源的勘探与开发中发挥着巨大的作用。然而,在导管架平台安装和服役过程中,无法避免补给船、甲板坠物等对平台部分管状构件(如弦杆、撑杆、立柱等)造成撞击损伤,从而影响构件的承载能力,威胁到平台的运营安全。因此,研究导管架平台管状构件碰撞受损后的剩余强度对平台整体的安全性和稳定性都是至关重要的。本文以这类受力构件为研究对象,从实验、有限元和理论三个方面
随着人工智能在医疗领域中的广泛应用,通过自然语言处理技术,可以实现患者的发病史、诊疗过程和出院状况的智能化管理。将这些信息应用在智慧诊疗中,对构建医学知识图谱、辅助决策系统和问诊系统至关重要。针对当前电子病历命名实体识别准确率不高以及需要大量人工标注的问题,本文采用自注意力模型结合双向循环神经网络对命名实体识别进行研究,主要的工作包括:实验数据集采用全国知识图谱和语义计算大会开源的电子病历,对数百
船舶在海上航行时,砰击现象会时常发生,对于具有大外飘结构的船舶,即使底部结构不出水,波浪的砰击载荷也会作用于船艏部的船侧结构上产生较大的侧向载荷,可能导致船侧局部结构的破坏。与其他船体结构不同的是,首外飘的角度较大时,该部分的加强筋并非全部垂直于舷侧外板,而是与外板形成一定的角度。目前针对侧向载荷作用下加筋板的极限强度研究多注重于加强筋垂直于外板的情况,因此为了满足带倾角加筋板船侧结构的使用性能和
虹吸式出水流道因其断流方式方便可靠,在我国大型轴流式防洪排涝泵站中应用广泛。但随着水文地质条件的变化,在汛期外江水位超驼峰情况时常发生,在超驼峰水位下利用虹吸式出水流道已无法断流,直接影响到机组安全稳定运行。因此,本文针对广东某带虹吸式出水流道的轴流泵站在超驼峰工况下,机组启动、停机水力稳定性问题,基于瞬变流理论分析了超驼峰工况下轴流泵启停特性,提出了超驼峰工况下水泵-闸门联合控制策略,确定超驼峰
气凝胶作为一种功能性强、比表面积大、孔隙率高、化学稳定性好的新型多孔材料获得了人们的关注,并在医学、绝缘、和催化等多种领域中得到广泛应用。通常采用超临界干燥方法
2013年以来,我国经济进入新常态,强化逆周期调节成为经济工作的重点。随着宏观经济环境的不断变化,并购已成为企业寻求发展新动能、优化资源配置、进行战略调整的关键手段。近几年,煤电企业相继通过并购手段来进行逆周期布局,以期实现企业经济持续增长的目标。但现有研究发现,企业在逆周期进行并购重组对其经济增长的提升效果并不明显,具体表现为协同效应难以充分发挥,企业绩效普遍下降。因此,有必要对逆周期背景下企业
作为国际社会普遍认可的个人信息保护法的基本原则,目的限制原则基本含义包括目的明确和使用限制两方面的内容,目的明确要求信息控制者在进行个人信息收集之时,以特定、明确及合法的方式让信息主体知晓个人信息被收集和使用的目的,从而对个人信息的后续使用产生合理预期;使用限制则要求在个人信息的后续处理过程中,其处理方式不得逾越既定目的,除非符合其他法定行为规范,如出于公共利益、科学或历史研究或者统计目的之需要或
随着环保法规的日益严格,新的车用汽油标准对汽油中硫含量和烯烃含量以及苯含量提出了更高的要求,对高辛烷值清洁汽油调和组分的需求量逐年增加;另外随着芳烃下游产品需求量