【摘 要】
:
近年来,各种各样的推荐算法层出不穷,特别是深度学习的发展,极大地推动了推荐系统的研究.然而,各个推荐算法在实现细节、评价方式、数据集处理等方面存在众多差异,越来越多的研究者开始对推荐领域的可复现性产生担忧.为了帮助缓解上述问题,基于PyTorch实现了一个综合、高效、易扩展的轻量级推荐算法框架ReChorus,意为构建一个推荐算法的“合唱团”.ReChorus框架中实现了多种不同类型的推荐算法,类别涵盖常规推荐、序列推荐、引入知识图谱的推荐、引入时间动态性的推荐等;同时,对于一些常见的数据集也提供统一的预
【机 构】
:
清华大学 计算机科学与技术系, 北京 100084;北京信息科学与技术国家研究中心(清华大学), 北京 100084
论文部分内容阅读
近年来,各种各样的推荐算法层出不穷,特别是深度学习的发展,极大地推动了推荐系统的研究.然而,各个推荐算法在实现细节、评价方式、数据集处理等方面存在众多差异,越来越多的研究者开始对推荐领域的可复现性产生担忧.为了帮助缓解上述问题,基于PyTorch实现了一个综合、高效、易扩展的轻量级推荐算法框架ReChorus,意为构建一个推荐算法的“合唱团”.ReChorus框架中实现了多种不同类型的推荐算法,类别涵盖常规推荐、序列推荐、引入知识图谱的推荐、引入时间动态性的推荐等;同时,对于一些常见的数据集也提供统一的预处理范式.相比其他推荐系统库,ReChorus在保证综合高效的基础上尽可能做到了轻量实用,同时具有较高的可扩展性,尤其以方便学术研究为导向,非常容易上手实现新的模型.不同的推荐算法在ReChorus框架中能够在相同的实验设定下进行训练和评测,从而实现推荐算法间的有效对比.该项目目前已在GitHub发布:https://github.com/THUwangcy/ReChorus.
其他文献
无监督域自适应是解决训练集(源域)和测试集(目标域)分布不一致的有效途径之一.现有的无监督域自适应的理论和方法在相对封闭、静态的环境下取得了一定成功,但面向开放动态任务环境时,在隐私保护、数据孤岛等限制条件下,源域数据往往不可直接获取,现有无监督域自适应方法的鲁棒性将面临严峻的挑战.鉴于此,研究了一个更具挑战性却又未被充分探索的问题:源域无关的无监督域自适应,目标是仅依据预训练的源域模型和无标签目标域数据,实现源域向目标域的正向迁移.提出一种基于伪标签不确定性估计的源域无关鲁棒域自适应的方法PLUE-SF
在多标记学习(MLL)问题中,每个示例都与一组标记相关联.为了实现对未见示例的高效预测,挖掘和利用标记之间的关系是至关重要的.大多数已有的研究都将关系简化为标记之间的相关性,而相关性又通常基于标记的共现性.揭示了因果关系对于描述一个标记在学习过程中如何帮助另一个标记更为重要.基于这一观察,提出了两种策略来从标记因果有向无环图(DAG)中生成标记的因果顺序,同时使得生成的因果顺序都遵循因标记应该在果标记之前的准则.第1种策略的主要思想是对随机顺序进行排序,使其满足DAG中的因果关系.而第2种策略的主要思想是
针对基于信息增益与皮尔森相关系数的特征选择算法FSIP(feature selection based on information gain and Pearson correlation coefficient)存在的特征子集选取需要人工参与的问题,提出基于可辨识矩阵的完全自适应2D特征选择算法DFSIP(discernibility based FSIP).DFSIP算法完全自适应地发现特征子集,每次选择当前特征中最重要的一个特征,并以此特征约简可辨识矩阵,剔除冗余特征,最终自适应地获得最优特征子集
随着互联网信息的爆炸式增长,标签(由用户指定用来描述项目的关键词)在互联网信息检索领域中变得越来越重要.为在线内容赋予合适的标签,有利于更高效的内容组织和内容消费.而标签推荐通过辅助用户进行打标签的操作,极大地提升了标签的质量,标签推荐也因此受到了研究者们的广泛关注.总结出标签推荐任务的三大特性,即项目内容的多样性、标签之间的相关性以及用户偏好的差异性.根据这些特性,将标签推荐方法划分为3个类别,分别是基于内容的方法、基于标签相关性的方法以及基于用户偏好的方法.之后,针对这3个类别下的对应方法进行了梳理和
特征学习是机器学习中的一项重要技术,研究从原始数据中学习后置任务所需的数据表示.目前,多数特征学习算法侧重于学习原始数据中的拓扑结构,忽略了数据中的判别信息.基于此,提出了基于随机近邻嵌入的判别性特征学习模型.该模型将对判别信息的学习与对拓扑结构的学习融合在一起,通过迭代求解的方式,同时完成对这两者的学习,从而得到原始数据具有判别性的特征表示,可以显著提升机器学习算法的性能.多个公开数据集上的实验结果验证了该模型的有效性.
在实际应用中,聚类多视图数据是一项重要的数据挖掘任务.样本缺失所导致的多视图不完整给聚类任务带来了巨大的挑战.大部分已有的不完整多视图聚类方法主要基于浅层图结构信息,易受到噪声及缺失数据的影响,且难以准确刻画并兼容所有视图的潜在结构,从而降低了聚类性能.为此,提出了一种更为鲁棒和灵活的基于多阶近邻扩散融合的不完整多视图聚类算法.该算法在利用多阶相似性学习不完整视图潜在结构的基础上,通过跨视图交叉扩散的方式,将不同阶的深层结构信息进行非线性融合,以此挖掘视图间更全面的结构信息,从而降低了缺失样本所导致的视图
近年来的研究表明,对抗训练是一种有效的防御对抗样本攻击的方法.然而,现有的对抗训练策略在提升模型鲁棒性的同时会造成模型的泛化能力下降.现阶段主流的对抗训练方法通常都是独立地处理每个训练样本,而忽略了样本之间的关系,这使得模型无法充分挖掘样本间的几何关系来学习更鲁棒的模型,以便更好地防御对抗攻击.因此,重点研究如何在对抗训练过程中保持样本间的几何结构稳定性,达到提升模型鲁棒性的目的.具体而言,在对抗训练中,设计了一种新的几何结构约束方法,其目的是保持自然样本与对抗样本的特征空间分布一致性.此外,提出了一种基
通过NHTSA和IIHS真实正面碰撞试验数据的统计和归纳,以及解析求解,分别建立采用C-NCAP评价的100%正面刚性壁障(FRB)碰撞和50%正面可渐进变形移动壁障(MPDB)偏置碰撞,以及采用中国保险汽车安全指数(C-IASI)评价的正面小重叠度壁障(SOB)偏置碰撞中碰撞波形和侵入量的评价方法,可为约束系统的匹配打下良好基础,为车辆获得优异的星级提供保障.
城市道路是城市的重要组成部分,与城区居民的生活息息相关.因此,在城市道路设计规划过程中需要充分考虑市民出行特点以及未来几年内城区内部车流量的增加情况,结合要点环节完成整体设计.通过探讨城市道路设计思路和设计当中的技术要点,以期推动我国城市道路建设的可持续发展.
本文旨在研究不同碰撞速度和行人步态条件下颈部肌肉主动力对行人头部损伤的影响.首先,采用湖南大学头颈HHNM-Ⅲ模型,取代LSTC假人模型头颈部分,构成行人混合假人模型并运用尸体实验数据验证该混合模型的有效性.然后运用该模型进行仿真,以分析不同碰撞速度下,撞击侧腿后摆和撞击侧腿前迈两种行人步态对行人头部损伤的影响.结果表明:在低速碰撞下,颈部肌肉会降低头部的运动幅度,但会使头部损伤风险增大;撞击侧腿后摆步态下的行人头部损伤比撞击侧腿前迈的步态严重;在高速碰撞条件下,颈肌对头部损伤的影响较小.