面向推荐系统的高效学习与精准推荐技术与应用

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:c543217896chenjia
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,推荐系统已经被广泛应用于各大互联网平台中,为解决信息过载问题提供了有效的解决方案。推荐系统的目的是根据物品的属性(价值)和用户的偏好,从大规模物品池中挑选出用户感兴趣的物品并进行推荐,以此来满足用户的需求。因此,其核心主要包含三个方面。首先,推荐系统需要能够准确描述物品的价值;其次,推荐系统需要能够深入理解用户的偏好行为;最后,面对大规模物品和用户时,推荐系统需要能够高效地对模型进行训练以达到快速迭代更新的目的。现阶段,尽管推荐系统的研究已经取得了非常不错的效果,其大量的落地应用也使得用户深切地体会到由推荐系统带来的便利,但是想要进一步提升推荐系统在实际场景中的效用需要围绕物品、用户和模型三个研究对象进行更深入地研究与分析。这其中面临着三个研究挑战:针对物品而言,其价值受到不同因素的影响导致对物品排序困难;针对用户而言,其行为模式复杂导致对其理解困难:针对模型而言,在负反馈推荐场景下,面对大规模物品时负样本的缺失导致模型训练低效。为了解决上述三个挑战,本文系统性地开展了面向推荐系统的高效学习与精准推荐技术与应用。具体的,本文分别在物品价值分析与建模、用户行为理解与预测和模型高效训练三方面进行了研究。本文的主要工作与贡献可以概括如下。(1)本文研究了物品价值分析与建模方法。针对金融众筹平台中的融资项目和社区问答平台中的用户回答,分别对影响它们价值的因素进行了分析。一方面,本文针对金融众筹平台中的融资项目,发现影响其价值(项目融资分布以及项目融资成功所需时间)的因素主要包括融资项目在创建时由融资者提供的描述信息和其他投资人给出的评论信息。为此,本文提出了基于众筹项目属性和用户评论的模型SMP,其中包含一个编码器和一个解码器分别用来预测融资分布预测和融资成功时间预测两个任务,并利用序列到序列的框架将他们融合进行联合建模。其中编码器基于用户的投资心理和行为有序建模了两类影响融资项目价值的因素并预测最终的融资分布,解码器则根据编码器的预测结果来进一步预测融资成功时间。此外,本文还提出了多个先验强化模型的预测能力。实验结果表明SMP在两个预测任务上相比于对比方法都达到了更好的预测效果。另一方面,本文针对社区问答平台中的用户回答,发现影响其价值(用户的满意度/点赞数)的因素主要包括问答的语义匹配程度和时间效应。为此,本文提出了基于语义增强和时间效应的回答排序模型EARNN。在语义增强方面,本文发现了问题对应的标签对衡量问题和回答两者之间的语义匹配程度起到一定的增强作用,基于此本文提出了标签感知的注意力机制,实现更加精准的语义匹配。在时间效应方面,本文发现回答的时间越早,那么回答的价值就越高,基于此本文提出了一种启发式的方法,设计了时间敏感的价值衰减因子使得回答的价值受到间隔时间长短的制约。实验结果表明EARNN在回答排序结果上相比于传统方法更加精准,也证明了时间效应在衡量回答价值时起到了重要作用。(2)本文研究了用户行为理解与预测方法。针对在线新闻平台中的用户,对影响其点击行为的因素进行了深入分析和理解。发现主要因素包含用户的个人兴趣和群体行为,并基于此提出了融合个人兴趣和群体行为的点击行为预测模型MMF。一方面,本文将个人兴趣进一步分解成短期兴趣和长期兴趣,并分别提出了基于LSTM的序列模型和类别感知的用户建模来建模这两类兴趣。另一方面,本文发现群体行为的表现形式与新闻的时效性紧密相关,新闻的强时效性使得一则新闻在短时间内获得用户群体的爆炸性点击量。因此,本文将用户因群体行为而发生点击的问题转化为对新闻时效性的预测,并创新性地形式化为点击事件预测问题。相应地,提出了基于生存分析技术的预测方法,描述了新闻因时效性而被点击的概率随时间的变化。在独立事件假设下,融合所有因素,实现对用户点击行为的预测。实验表明MFF在用户点击行为预测上的精确度高于传统方法,并且对于新闻时效性的刻画也是符合实际统计结果的。(3)本文研究了模型高效训练方法。在负反馈推荐场景下,面对大规模物品时负样本的缺失会导致模型训练低效。为了解决该问题,针对经典模型IRGAN中存在的两个问题进行了深入分析,并提出了基于采样可分解的生成对抗推荐模型SD-GAR。一方面,针对IRGAN中判别器预测精度低的问题,本文对IRGAN的优化目标进行了数学分析,发现了最优生成器的闭式解形式,并提出了基于自归一重要性采样的优化目标,成功提升了判别器的推荐效果。另一方面,针对IRGAN中生成器采样和训练低效的问题,提出了采样可分解的生成器。该生成器避免了大规模矩阵乘法,使得负样本采样效率得到了质的飞跃。同时,本文针对生成器提出了具有闭式解的优化目标,极大提升了参数的更新效率。实验结果表明SD-GAR在多个公开数据集上相比于IRGAN取得了更好的推荐效果。此外,通过训练时间的对比,证明SD-GAR的采样速度和训练速度都明显优于IRGAN。
其他文献
有机光电集成技术是未来信息和能源技术的重要发展方向,其物理基础是分子尺度上的光电相互作用。扫描隧道显微镜(STM)诱导发光技术(STML)将STM的超高空间分辨率与高灵敏的光学探测技术相结合,展现出了在单分子水平上探索光电现象和洞悉内在物理机制的前所未有的能力。实现基于STM的单分子电致发光的一个关键问题是如何抑制由分子与金属衬底之间的直接电子转移引起的荧光猝灭效应。在STML研究中,通过物理脱耦
学位
随着航空涡轮发动机向高推重比和高流量比的方向不断发展,要求发动机的涡轮前进口温度不断提高,在高温合金叶片表面涂覆热障涂层是必然选择。热障涂层依靠最外层陶瓷层隔绝大部分热量,并借助金属过渡层将基体和陶瓷层粘结。金属粘结层是热障涂层体系中最为关键的部分,它作为储铝层,为其表面保护性Al2O3膜的生长提供充足的Al源,从而实现对高温合金基体的高温腐蚀防护。然而,高铝涂层与单晶合金基体间势必会因成分差异而
学位
2022年的河北中考化学既是“双减”政策实施后的第一年,又是依据《义务教育化学课程标准(2022年版)》(以下简称“2022年课标”)进行命题的第一年。基于2022年课标,结合命题新政策,全面分析河北中考化学试题,并针对一些典型试题,研究学生的错误答案、剖析学生答错的原因,以梳理、总结出其对日常教学和中考复习的启示,如此既可提高学习效率,又可促进以素养为本的高质量化学教学走向常态。
期刊
高考评价体系由“一核”“四层”“四翼”三部分组成。其中,“创新性”是“四翼”考查要求中的一个重要维度,创新性试题是考查学生创新思维及核心价值观念的有力工具。本研究对2023年高考全国卷生物学创新性试题进行分析,发现其关注社会科技发展,彰显价值引领;注重联系回归教材,体现课标变化;深入考查重要概念,反映学科本质联系;关注创新能力,变“学会”为“会学”。据此进一步探究创新性试题对教学的启示,以期更好地
期刊
生物集群运动在自然界中广泛存在且倍受关注,其中蕴含了复杂的流体力学、生物学和社会学机制,对生物集群行为的物理机理分析及仿生应用具有重要意义。本文采用格子玻尔兹曼方法、变形体动力学、浸没边界法及深度强化学习算法相结合的方法,数值研究了包含两个或多个波状运动翼型系统的自主运动问题,并对其中的部分或全部个体进行了主动控制。本文的结果对鱼类的集群游动有一定启示,主要工作及研究成果如下:(1)设计并开发了基
学位
金属锂因其高的理论比容量(3860mAhg-1)及低的氧化还原电位(-3.045 vs.标准氢电极),被认为是锂基电池体系最理想的负极材料。然而,金属锂在可逆电解/电沉积过程中,枝晶生长与不稳定的固态电解质界面(Solid electrolyte interphase,SEI)膜给金属锂负极电池带来安全隐患、库伦效率低与循环稳定性差等问题,制约了其实用化。因此,抑制锂枝晶的生长并优化SEI膜的成分
学位
三维视觉是人类认知世界的重要途径,人类的感知信息绝大部分来源于视觉信号。随着多媒体技术的发展,真实感和浸入感逐渐成为一个重要的发展方向。与传统技术相比,光场成像技术可以同时记录光线的强度信息和角度信息,因而可以提供额外的观看体验,如自由切换视角,主动重聚焦等等。光场技术也因此被视为最终实现六自由度体验的关键技术。但目前光场的实际应用尚存在一些问题:光场数据量巨大,对存储和传输都构成了巨大的挑战,而
学位
期刊
马氏体时效钢作为超高强度钢的重要成员,可以通过在中等温度下进行时效处理析出纳米级的析出相来实现材料的强化。这类钢具有超高强度、高延展性和高韧性,因此成为火箭发动机外壳、潜艇外壳和低温导弹等结构件的首选材料。了解马氏体时效钢在时效过程中的析出相演变规律,探究析出相的作用机制,是开发综合性能优异的马氏体时效钢的基础。在马氏体时效钢中,各种纳米析出相的种类、形貌及其热稳定性与材料成分以及热处理制度密切相
学位
协作多点(Coordinated Multi-Point,CoMP)通信技术,利用分布在空间中的多个站点之间的协作,可以有效提高用户(特别是边缘用户)的服务质量(Quality of Service,QoS)。然而,传统的CoMP技术基于正交多址接入(Orthogonal Multiple Access,OMA)技术,这使得系统的频谱利用率不高。例如,当多个站点协同服务一个边缘用户时,每个站点须要
学位