基于协同训练的半监督推荐算法研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:Wangqiling1116
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在互联网技术飞速发展的背景下,信息过载问题成为了用户新的苦恼,也阻碍了互联网业务继续发展。随着数据挖掘技术的进步,个性化推荐系统应运而生,推荐系统能够在浩如烟海的数据中发现用户潜在偏好,直击用户兴趣点。协同过滤是构建个性化推荐系统的核心技术,近年来受到了工业界和学术界的广泛关注,然而数据稀疏问题却始终制约着其性能。为了缓解数据稀疏问题,现有工作大多着眼于引入辅助信息,而甚少有工作关注大量廉价的未标记数据。本文聚焦于推荐系统中常见的数据稀疏问题,将尝试从两个新颖的角度进行思考,引入未标记样本缓解数据稀疏问题。本文针对传统推荐算法存在的数据稀疏问题,作出以下研究:提出了一种协同训练风格的半监督方法来集成三种成熟的协同过滤算法,称为半监督集成协同过滤(Semi-Supervised Ensemble Filtering),简称SSEF。具体而言,SSEF首先通过三种不同的协同过滤算法分别使用标记样本初始化三个弱预测模型。然后合并由邻域方法生成的两个预测模型,与潜在因子模型生成的预测模型,作为两个基学习器,在共同训练过程中,每个学习器都为另一个学习器标记无标记样本。为了安全地利用未标记的数据,通过验证伪标记的样本对标记的样本的影响来估计标记的置信度。通过将增强后的三个预测模型的输出加权融合,可以进行最终预测。所提出的算法在多个真实数据集上与众多协同过滤推荐算法(包括基于半监督,集成和基于边信息的解决方案)进行了对比,验证了所提出的半监督协同训练算法的有效性。通过提出一种评论感知的半监督协同训练方法(Review-aware Semi-supervised Collaborative Filtering,RSCF)来解决数据稀疏问题。具体来说,使用分解模型来捕获用户评论信息。然后,为了构建一个能够同时利用评论信息和未标记数据来提高推荐性能的模型,本文提出了一种半监督的集成学习算法。该算法使用不同评论信息构造不同的(弱)预测模型,然后采用协同训练策略以允许每个(弱)预测模型从其他预测模型中学习。与用于解决数据稀疏问题的标准推荐方法相比,该方法具有几个明显的优点。首先,它定义了一个评论感知分解模型,该模型兼顾了模型多样性与性能(评论信息使得学到的用户和物品表示更准确)。其次,该方法可以自然支持监督学习和半监督学习,提供了一种灵活的方法来合并未标记的数据。所提出的算法在两个真实数据集上进行了评估。实验结果表明,与标准算法相比,使用本文的方法可以显着提高推荐精度,并且可以大大缓解数据稀疏问题。
其他文献
钩缓装置作为铁路货车的重要组成部分,其检修设置的科学性影响车辆运行安全和运行成本。随着高速重载战略的不断推进和货车运用量的增加,给货车钩缓装置的维修管理带来了巨大挑战。既有的定期全列检修策略缺乏充分的科学依据且难以满足精细化管理要求,亟需制定新的维修策略。但由于钩缓装置部件多,结构复杂,前期失效规律研究积累有限,难以得到维修策略优化模型的解析解,且模型的实际应用能力受限。为此,本文利用蒙特卡洛仿真
机器翻译是利用计算语言学技术,将源语言自动翻译成目标语言的一项技术。鉴于机器翻译的深远研究意义和广阔应用前景,产业界和学术界都将其视为重点的研究方向,成为当前自然语言处理最具有挑战性的研究领域之一。伴随着近几年神经网络技术的大力发展和数据资源的进一步丰富,基于神经网络的机器翻译系统(Neural Machine Translation,NMT)已经逐渐成为机翻翻译领域的主流方法。然而目前的神经网络
当前,交通拥堵已成为各大城市的“通病”,由此引发的交通污染、交通安全等问题也严重困扰着城市的发展。ITS作为缓解交通拥堵的有效措施,近年来越发受到重视。作为ITS的重要功能,交通控制与诱导能够从微观意义上调整交通管理控制方案,其调控策略的成效就依赖于短时交通流预测的结果。本文针对快速路交通流特性,提出基于时钟循环神经网络的多车道短时交通速度预测模型,并在此基础上渐进式地完善模型,兼顾预测精度与效率
机车信号设备作为列车运行控制系统的重要组成部分,在保障行车安全方面起着重要的作用。随着高速和重载铁路的发展,电磁干扰愈发严重,机车类型更加多样,在特定骚扰环境下,传统的滤波方式不能快速有效滤除有用信号频带内的噪声,现有的机车信号解码方法已难以满足需求。在此背景下,本文基于机车信号的时域频域特点及干扰耦合方式,结合深度学习技术,提出了基于优化的去噪卷积神经网络(Denoising Convoluti
近几年,随着计算资源的提升和大数据的发展,深度学习模型执行任务的能力也得到了较大的提升。在计算机视觉研究中,例如图像分类、目标检测、图像分割等任务,卷积神经网络模型表现出了非常优异的性能,尤其在某些任务中其执行能力可以超越人类的感知能力。然而随着终端部署的需要,深度模型占存大、运行速度慢等问题逐步凸显。深度模型压缩算法通过将模型参数剪枝去除或者转换为低精度数据类型等方式,将模型的占存压缩到较低水平
随着全球经济的稳定提升和电力行业的迅速发展,在各个国家的总用电量大幅增长的同时,电力负荷峰谷间的差值也在不断扩大,日益凸显出电力供需的不平衡问题。储能技术作为能源转型的重要技术支撑,可有效的解决电网供需矛盾。同时由于储能技术经济性的提高和政府相关激励政策的出台,储能的发展正逐步由前瞻性研究转向项目示范。但现阶段储能系统在用户侧的运营效益仍未较好体现,单一用户的投资经济效益较差,如何以尽可能小的投资
学位
随着集成电路等领域的发展需求迅猛增加,对用于制造芯片的晶圆表面加工质量和精度提出了越来越严格的要求,要求其具有极高的光滑度、洁净度和平整度。但是高质量、高效率的晶圆平坦化抛光是极其困难的,目前该项技术仍被少数国家或地区所垄断。传统抛光手段易对晶圆表面造成划痕、亚表面损伤和碎片等现象,而磁流变抛光技术具有法向压力低不易造成表面损伤、材料去除量可控等优点,可实现晶圆表面高质量抛光,但由于整体柔性接触的
对于图Γ,分别用V(Γ),E(Γ),Arc(Γ)和Aut(Γ)表示它的点集,边集,弧集和全自同构群.设G≤Aut(Γ),若G在V(Γ),E(Γ)或Arc(Γ)上的作用是传递的,则相应地分别称图Γ为G-点传递图,G-边传递图或G-弧传递图.若G在E(Γ)或Arc(Γ)作用是正则的,Γ称为G-边正则图或G-弧正则图.如果一个具有正则度数的图Γ是G-边传递的但非G-点传递的,则称Γ为G-半对称图.特别地
随着市场经济和科学技术的快速发展,我国输液器制造企业间的竞争越来越激烈。W公司是一家生产输液器等医疗器材的企业,在时代背景下公司不断发展,规模不断扩大,但同样也面临着激烈的竞争,因此如何降低生产过程中的制造成本、提高效率成为W公司发展的关键。合理的生产车间布置有利于提高物料运输能力、减少生产物流成本以及提高生产效率。因此,W公司要通过对输液器生产车间进行设施布置优化降低生产成本,提高效率,使公司在