基于深度学习的分类预测算法研究及实现

来源 :北京邮电大学 | 被引量 : 13次 | 上传用户:jieean
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息检索领域中的点击率预测和个性化推荐问题中存在大量多字段分类数据。这类型的数据主要呈现以下特征:有多个不同字段,且每个字段与其他字段间没有明确依赖关系。与图像和语音的连续数据不同,这类数据在处理之后通常具有高维稀疏性,且不同字段的特征之间存在组合关系。如何提取这种复杂的组合特征对于提升广告点击率预测与推荐系统的性能至关重要。传统的机器学习方法在处理这类问题时依赖繁琐且复杂的人工设计组合特征。深度学习凭借强大的表示学习能力,擅长学习高维数据中的复杂关系,可以用端到端的方式更好地提取高质量的特征。本文研究基于点击率预测的深度学习模型,并对其进行改进,设计了一种基于注意力机制的因子分解机模型和残差网络并行的网络结构,并在公开数据集上进行了验证。主要研究内容如下:(1)对宽深度模型Wide&Deep及其变体进行研究及仿真。研究发现其核心思想都是通过融合线性模型和深度模型分别提取低阶和高阶的组合特征。通过实验,得出了这类模型目前存在的不足,为后续模型的优化提供研究思路。(2)为进一步提高宽深度模型对复杂组合特征提取的能力,本文设计并实现了因子分解机与残差网络并行的模型结构FM&ResNet。模型在因子分解机中引入注意力机制为不同组合特征自适应赋予权重;在残差网络部分引入自注意力机制建模组合特征;引入残差连接的结构,使得模型的收敛性更好。(3)本文模型在公开数据集上的实验验证。实验表明,在不显著增加训练时间的基础上,模型的AUC(Area Under Curve)性能指标在Criteo数据集上有0.1%的提升,在Frappe数据集上有2%的提升;引入注意力机制能够有效提升模型性能。最后,本文算法模型在快手公司短视频数据集上的点击率预测也取得了良好的效果。
其他文献
文学名著“指的是具有丰厚的人生意蕴和永恒的艺术价值,为一代又一代读者反复阅读、欣赏,体现民族审美风尚和美学精神,深具原创性的文学作品。”阅读文学名著可以使学生接受人文
目的探讨长期吸烟患者的肱动脉内皮功能的变化及吸烟对动脉粥样硬化形成的危害性。方法采用超声显像法测定56例长期吸烟者(吸烟组)和64例不吸烟者(对照组)基础状态下和反应性
<正>今年是我国改革开放40周年和资本市场建立28周年。1990年11月26日上海证券交易所成立,成为我国实行改革开放后资本市场建设的重要里程碑。2018年11月5日习近平总书记在首
<正> 为首长写讲话稿是秘书的一项经常性工作。但是,有的稿子能顺利过关,有的则三番五次通不过,究其原因,除了秘书的文字能力存在个体差异,首长对讲话稿的要求标准不一样外,
期刊
自《红楼梦》问世以来,戏曲对其改编就成为一种普遍的现象。通过对清末和民国初期红楼戏梳理,为我们进一步研究红楼戏提供了便利。本文以《红楼二尤》京剧为例,以文本为主来
<正>一、阶梯电价及其发展(一)阶梯电价概念"阶梯电价"全名为"阶梯式累进电价",是指把居民生活用电户月用电量分为若干档,对基本用电需求部分实行较低的电价,对于超过基本需
近年来高校发展日益加快,面临的挑战也逐渐多样化,科研项目作为高校的一项重要创新能力也面临着科研经费申请、使用、监督等多方面的问题。内部控制作为应用于企业的一种较为
目的:缺血性脑卒中是危害我国国民健康的一大疾病,三七通舒胶囊是临床上治疗缺血性脑卒中疗效确切的上市成药,成分为三七三醇皂苷(PTS)。目前对PTS的实验和临床疗效研究报道多
设施园艺是设施农业的重要组成部分,在我国农业及农村经济发展中的地位和作用越来越重要。重点分析介绍了国内外设施园艺现状及发展方向,分析了我国面临的问题,提出了我国设
提高分析化学测量方法的灵敏度一直是分析化学家追求的目标。在电分析化学中,测量方法的灵敏度取决于测量信号的信噪比。通俗的说,当有用信号(法拉第电流)在总电流信号中占的