结合序列数据与注意力机制的点击率预测技术研究

来源 :东华大学 | 被引量 : 0次 | 上传用户:chenyongze
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
推荐系统是数据挖掘的应用分支,为用户提供个性化服务,旨在帮助每一个用户在海量的数据中筛选出合适的信息。其核心任务在于从丰富的日志数据中组合使用各种算法策略挖掘潜在信息。点击率预测算法是一种常见的推荐策略,该方法通过计算商品或广告的被点击概率并从高至低排序,得到最终的推荐列表。点击率预测算法的性能直接决定了推荐系统的优越性。在电子商务的应用背景下,除物品特征外,丰富的用户历史行为数据给予点击率预测任务更多的可能性,如何从用户行为序列中挖掘用户兴趣是点击率预测技术的新兴研究方向。论文结合注意力机制与用户行为序列数据,研究了个性化商品点击率预测算法,并将其应用于实时购物推荐系统。通过分析点击率预测算法的研究现状,指出了基于特征交互方法的性能瓶颈。现有的基于用户行为序列的点击率预测方法忽视了重要的时间信息,针对序列数据的时间特征,论文将序列内部任意两个行为的时间差构造为相对时间图,设计了结合时间特征的自动嵌入编码器,用于提高特征的表达能力。为解决用户原始行为序列在预测用户未交互物品上的局限性问题,论文对多特征融合技术进行了研究,设计了多特征融合的兴趣进化模块,用于模拟用户行为序列单位时间的变化,该模块能够以信息无损的方法将相对时间图中的时间特征融入注意力权重计算过程中。在此基础上,论文提出了时间感知的点击序列网络(TACSN,Time-aware Attentive Click Sequence Network),该模型结合了序列数据与注意力机制,利用时间特征增强注意力计算结果,分别经过泛化行为序列数据和提取用户兴趣两个过程,得到最终的点击概率。论文将提出的模型与多个基准模型作对比实验,实验结果证明了模型的有效性。通过消融实验验证了各个模块对模型做出的贡献,并利用网格搜索方法寻求模型中超参数的最优解。论文设计并实现了购物推荐系统,该系统利用论文提出的模型,动态生成用户感兴趣的物品列表,提升了商品被点击的概率,验证了模型在实际应用中的可行性。具体来说,论文的主要工作包含以下几个方面。(1)研究了离散时间特征的嵌入向量生成方法。在分析不同嵌入模型的优缺点的基础上,设计了时间特征的自动嵌入编码器。该编码器能计算出每一个特征值在一个嵌入变量组上的概率分布,并用聚合函数得到最终的嵌入向量表达,解决了连续特征嵌入向量在表征容量和模型复杂度上的平衡问题。(2)研究了信息无损的特征融合方法。在注意力权重计算过程中,利用融合函数将时间特征与其他物品特征融合,并将权重分配给原始的物品特征。使模型在学习多特征信息的同时避免了模糊物品原本的语义,提升了序列模型的数据表示能力。(3)研究了时间感知的点击序列网络。将序列内的行为作为图的节点,行为发生的时间差作为边,构造相对时间图。为了增强时间特征并模拟用户兴趣的演化过程,将图以信息无损的方式融入Transformer的自注意力模块,称作相对时间感知的Transformer,该模块能够利用时间差信息模拟用户行为单位时间后的变化。在此基础上,提出了时间感知的点击序列网络TACSN,该模型利用相对时间感知的Transformer,增强序列行为的表达,利用注意力机制学习序列中的物品和待预测物品的相似性,相较于其他方法能够更深层次地挖掘用户兴趣,提高点击率预测的准确性。(4)对相关算法进行了对比实验。论文在两个真实数据集上进行了多个算法之间的比较实验,结果表明本文提出的TACSN在所有的评价指标上都取得了最优。论文设计了消融实验,验证了所提出的各个模块的有效性。通过设计多组实验,研究了用户行为长度对模型的影响,得到了在不同数据集上最优的行为序列长度。最后本文展示了各模块的超参数训练过程和参数最优值。(5)基于论文提出的TACSN模型,设计并实现了购物推荐系统。系统包括购物模块、推荐模块和后台管理模块。基于前后端框架构建基础应用服务,利用大数据框架实现在线商品推荐功能,从而验证了模型在实际应用中的可行性。
其他文献
宫颈癌是最常见的妇科恶性肿瘤,近几年发病率与死亡率呈现出上升趋势的同时明显趋向年轻化,在全球范围内严重困扰女性的生命健康。在临床上,如果宫颈癌能够在早期发现,治疗效果最好且需要承担的医疗成本低。因此,许多国家都在适龄妇女中全力推行宫颈癌早期筛查的普及,帮助女性在早期就能够及时发现宫颈疾病并进行相应治疗,从而降低妇女宫颈癌的发病率和死亡率。宫颈液基细胞检测(Thinprep Cytologic Te
学位
学位
活力与文化是组织发展的力量源泉,将二者融入医院管理,能够提升组织服务效能。将活力与后勤文化相结合,从思想文化、制度文化、绩效考评体系、人才培养、信息化建设等方面构建了医院后勤活力型文化体系。实践后,形成了后勤文化特色,提高了后勤员工素质和服务能力,推进了人才梯队建设,有利于持续保持员工和后勤组织的发展活力。
期刊
随着人工智能在学术领域的不断发展,人工智能应用于医疗影像处理的研究近年来愈发火热,并衍生出一系列应用于细胞分类、细胞检测、超声影像分割等领域的成果。脑脊液是在大脑的腔室和管腔以及脊髓的中央管中以及在大脑和脊髓的外部发现的透明液体,其内部包含20多种细胞,这些细胞的数量及形态反映了机体的健康状况。因此,对脑脊液进行细胞学检查是诊断脑膜炎、脑炎、梅毒等多类疾病的重要手段。然而,目前传统的脑脊液细胞学检
学位
花岗伟晶岩型稀有金属矿床多阶段成岩成矿是近年来伟晶岩型矿床成因研究的热点与前沿问题。吐格曼北花岗伟晶岩型锂铍矿床是阿尔金中段地区近年来新发现的稀有金属矿床,一些伟晶岩脉发育并保存复杂的分带及多期多阶段的成岩成矿现象。本文在介绍吐格曼北锂铍伟晶岩中多期多阶段成岩成矿现象的基础上,选择ρ31伟晶岩脉中包含锡石与锂辉石角砾的白云母钠长花岗岩(20AE43-3)、ρ87伟晶岩脉深部的细晶花岗岩(ZK870
期刊
学位
二分图可以对两种不同类型的实体之间的关系进行建模。二分图中的团被称为二分团,是二分图中的基本稠密子结构,在许多领域中都有重要应用。(m,n)二分团是指两层结点数分别为m和n的二分团。计算给定二分图中(m,n)二分团的个数具有十分重要的意义。现有二分团计数算法仅能处理(2,2)二分团,无法处理一般的(m,n)二分团计数问题。本文研究了如何在大规模二分图上高效计算(m,n)二分团的个数,具体研究内容如
学位
服装行业快速发展,在全球经济中占有重要地位。服装企业需要快速且准确的理解当前市场的服装流行元素趋势才能不断的调整自己的生产策略来适应市场。尤其在快时尚地影响下,这种提前知晓服装流行元素趋势的能力就变得愈发重要。依托课题组的东莞市虎门服装协作创新中心的服装云设计交易平台项目,本文研究基于深度学习相关技术预测未来的服装流行元素趋势,设计并实现了一个服装流行元素趋势预测系统,提供给服装生产销售企业和服装
学位
阿尔兹海默病是一种神经退行性疾病,会导致患者的认知能力出现衰退并且最终使人失去基本的生活能力。在目前的研究中,如何使医生为患者更好地提供医疗方案以延缓认知衰退是迫切需要解决的问题。目前的研究往往是基于MRI、PET等图像数据,花费高且耗时长。因此,利用患者的自发语音来对认知衰退进行预测,为患者提供更好的治疗方案有着重大意义。本文以AD患者的自发语音为研究对象,在特征方面研究了声学特征和语言学特征以
学位
航空摄影测量作为摄影测量学最重要的分支之一,近年来得到了长足的发展。倾斜航空摄影和无人机摄影测量等多种新作业模式的出现,给传统航空摄影测量带来新的挑战的同时也催生出了诸多新的解决方案。此外,人工智能领域计算机视觉技术和深度学习技术中的新理论、新方法不断融入航空摄影测量中,推动航空摄影测量向智能化、自动化方向发展。当代航空摄影测量学已经是多种传感器融合、多种数据采集方式结合、传统摄影测量和人工智能技
期刊