论文部分内容阅读
互联网的快速发展,带动了互联网广告行业的蓬勃发展。一般地,广告效果通常通过点击率进行度量,但对于广告主而言,转化率对于提升收益有着更为直观的解释。若可以将转化率与点击率同时作为广告的排序指标,这对于修正广告定价、提高广告投放准确性都可以起到至关重要的作用。因此,广告转化率研究对于广告主和广告媒介都有着极为重要的意义。在本次广告转化率模型建立过程中,本文主要做了以下几方面工作:(1)数据分析工作:首先,分析训练集与测试集的基本情况,用于保证模型评估的准确性;其次,研究不同数据集中各特征的数据表现,对数据集有基本的了解;然后,研究各特征与结果的关系,寻找影响结果的关键因素为下一步的特征构造做铺垫。(2)特征工程工作:主要是特征构造以及特征选择。首先,关于新特征的构造是基于对广告转化问题的思考,从而从原始特征中提炼出与转化有相关关系的新的五大类特征。其次,考虑到新构造特征以及原始特征并不能全部作为建模特征,因此采用卡方检验、线上线下一致性以及集成方法对特征进一步筛选,最终得到能够使得模型表现最佳的建模特征。(3)模型建立以及优化:模型优化主要是从特征选择以及调节参数展开的。首先利用构造特征与原始特征作为数据集,利用LightGBM训练模型,并用其预测测试集,得到logloss为0.09640。其次,根据模型重要性评分删除评分不高特征以及根据相关性删除信息冗余特征,重新训练模型得到logloss为0.09634。最后,根据LightGBM算法的核心参数指南,利用网络搜索方法寻找使得模型表现更佳的最优参数,最终重新训练模型,得到在测试集上的logloss为0.09630。