【摘 要】
:
点击率(Click Through Rate,CTR)预估是商业推荐系统中的一个重要任务,其关键是特征交互。精准的预估用户对广告的点击率能够为广告平台创造巨大的效益,为广告主带来即时点击并提升影响力,为用户提高服务质量。然而,由于特征交互极为复杂灵活,且真实场景的点击数据中的广告存在冷启动问题,建模有效的交叉特征极具挑战。本文针对点击率预估问题进行分析与研究,结合数据中的特征信息和域信息进行建模,
论文部分内容阅读
点击率(Click Through Rate,CTR)预估是商业推荐系统中的一个重要任务,其关键是特征交互。精准的预估用户对广告的点击率能够为广告平台创造巨大的效益,为广告主带来即时点击并提升影响力,为用户提高服务质量。然而,由于特征交互极为复杂灵活,且真实场景的点击数据中的广告存在冷启动问题,建模有效的交叉特征极具挑战。本文针对点击率预估问题进行分析与研究,结合数据中的特征信息和域信息进行建模,分别提出两种图神经网络模型对点击率进行预估。第一阶段,为了显式建模域对特征交互的影响,提出一种域感知的图神经网络模型(Field-Aware Feature Interaction via Graph Neural Network,FAFI-GNN)。模型首先经过表示层得到特征表示和域表示;然后以特征为节点,构建全连接的特征图,同时为了建模域对特征交互的影响,设计了域感知的邻接矩阵计算模块,根据域信息计算特征节点交互的强度;接下来通过门控图神经网络多次迭代得到高阶的交叉特征;最后通过注意力机制筛选有效的交叉特征进行融合,并将融合结果输入预估层进行最终预测。第二阶段,考虑到真实业务场景的数据中存在冷启动问题,构建多个粒度的特征以丰富信息。在FAFI-GNN的基础上,提出动态融合多粒度特征的图神经网络模型(Dynamic Merge of Multi-Granularity Feature via Graph Neural Network,DMGF-GNN)。FAFI-GNN模型建模了特征级别的交互,此为细粒度的特征,在此基础上,DMGF-GNN构建粗粒度的特征提取模块,通过图神经网络从域信息中抽取粗粒度特征,来补充有效信息从而提升模型性能。此外,为了捕获用户对域信息的偏好,设计了交叉引用模块,细粒度的特征图和粗粒度的域图交叉引用彼此的信息计算邻接矩阵,既显式捕获了域对特征交互的影响,又实现了个性化建模粗粒度特征。最后构建基于注意力机制的融合层将不同粒度的特征动态融合以预估点击率。本文将FAFI-GNN模型与DMGF-GNN模型在两个公开的数据集上进行了实验评估,两个模型的AUC指标性能明显优于其他前沿方法,证明了两者的有效性。DMGF-GNN模型融合了粗粒度和细粒度的特征,捕获的信息更丰富,其预测准确性高于FAFI-GNN模型。
其他文献
涉密文件涉及国家利益、企业利益和个人利益,关乎国家安全、商业安全和公共安全,纸介质载体在涉密文件分发、使用和溯源过程中具有不可替代的作用,而使用数字水印技术是防止纸介质资料非法打印传播、追溯打印源的有效方法。基于数字水印的涉密文档溯源是当前信息安全领域研究的热点课题。但当前世界上的文本数字水印研究的字体多为英文,而汉字与英文在结构、笔画等方面都存在巨大差异,现有英文数字水印技术并不适用于中文文本,
在互联网时代里,Web应用需求越来越复杂,产品开发周期不断缩短,手工测试存在效率低、覆盖率低的问题,因此不少企业选择运用自动化测试工具进行回归测试。由于一些商用软件的价格比较昂贵,一般的互联网公司会选择使用开源软件开发出自己的自动化测试系统,可以在一定程度上提高测试的效率。同时,在测试工作中,性能表现对于Web系统而言尤为重要,而Web负载测试是确保Web系统性能的必要手段之一。通常,这些负载测试
随着互联网的快速发展,分布式系统因在其分布性、资源共享、可扩展性等方面的明显优势,成为了当前互联网的主流架构。分布式系统的应用涉及社会的各个领域,其安全问题影响着人们的生命财产安全,及时地发现系统中的安全问题至关重要。模糊测试是目前发现系统安全问题最有效的自动化方法之一。因此,研究对分布式系统进行模糊测试发现其安全问题的方法十分重要。分布式系统的模糊测试属于网络协议测试中的一种(远程访问服务)。目
机器人操作行为是机器人与外界交互的重要方式之一,逐渐成为机器人领域的研究热点,并且对机器人领域的发展具有重要意义。抓取行为是机器人操作物体的主要方式,但面对复杂且物体排列紧密的环境时,机器人仅通过抓取行为难以高效地完成操作任务,还需借助推动行为。推动行为可以为抓取行为创造空间,但二者的协同策略存在过拟合和采样效率低的问题,且缺乏有效的行为评价体系。为了使抓取和推动行为的协同策略对复杂而密集的物体排
随着21世纪信息技术的迅速发展,许多业务领域的企业与公司以及运营商都在提供线上产品服务,在客户量不断增长的同时,人工客服的需求量也在不断增长。智能客服问答系统可以以标准、精确和简洁的检索结果来回答大量用户使用自然语言提出的大量的重复或相似地问题,可以协助人工客服,减少大量的人工客服的工作量。因此,设计并且开发一套美人鱼智能客服系统是十分重要的。在此背景下,本论文研究设计并且实现了美人鱼智能客服系统
中医药学凝聚着深邃的哲学智慧和中华民族几千年的健康养生理念,在长期的临床诊疗实践中积累了丰富且宝贵的资源,这些资源种类繁多、数据量巨大并广泛分布于整个中医药领域,如何充分整合、利用及管理这些数据资源是中医药面临的难题。中药处方是中医药学理、法、方、药的重要组成部分,是在辨证论治的基础上选药配伍形成,基于大规模临床数据,发现治疗疾病的有效核心处方和潜在药物配伍可有效辅助临床决策支持。但当前仍然较多的
将收集到的动物行为视频素材,按照教育教学的目的要求,通过相关剪辑编辑软件,制作动物行为视频案例库。编辑完成的动物行为视频案例分为本能行为、学习行为、生存行为、繁殖行为、社群行为、动物福利和研究方法等类别,其中大部分为短视频和微视频,便于在动物行为学、生态学、心理学和社会学等课程的教育教学和相关科普活动中加以应用。动物行为视频案例教学不仅可以传递动物行为学的专业知识,还可为弘扬生态文明、建设美丽中国
聚类分析是一种重要的无监督学习方法,旨在挖掘数据中潜在的数据结构和规律,将数据划分为多个簇类,是数据挖掘、机器学习以及信号处理等多个领域重要的数据分析和处理工具,具有重要的研究价值和应用前景。随着计算机技术以及各种传感器技术的发展,数据获取与采集能力大大提高,数据的维度和规模越来越大,传统聚类算法因无法克服维数灾难问题而不再奏效。子空间聚类算法利用高维数据可能分布于多个子空间结构的数据特点,将样本
在我国建筑业日趋于高科技、信息化,BIM即building information modeling,建筑信息模型,它的发明与应用被整个建筑行业称之为其在建筑工程信息化方面所引起的第二次工程技术革命。早在2003年,BIM技术已经由国外引入到国内,只不过在最初几年,受到国内技术发展的制约并没有得到很好的推广,但是近些年来,随着国内科技的进步以及数字信息化时代的到来,BIM技术已经逐步在国内推广并得
互联网的高速发展使得国内外媒体由传统媒体过渡到了新媒体时代,各种自媒体平台层出不穷,涌现出了一大批自媒体人。自媒体人的创作内容吸引着一批粉丝订阅其运营账户,通过粉丝对于他们创作作品的互动情况,分析数据最能够反应运营情况。粉丝态度、评论舆情是对创作内容最直观的反馈,有利于自媒体人了解自己粉丝看法观点,直击粉丝内心想法。另一方面,可以通过广大粉丝评论对热点事件的看法观点所形成的态度进而了解舆情。将这些