论文部分内容阅读
伴随着互联网、云计算、物联网等技术的迅猛发展,网络的数据规模也在急剧增长,信息社会已经慢慢步入“大数据”时代。网络广告投放系统架构于大数据的基础上,系统利用机器学习对海量用户行为进行分析挖掘并向用户实时地推送合适的广告。点击率(Click Through Rate,CTR)预测是网络广告投放系统的核心技术,对于提升系统的运作效率意义重大。CTR的精准预测是制定科学的电子商务市场营销决策的关键,直接影响用户的网络体验,直接关系到互联网公司的运营成本。因此,CTR的预测具有很高的商业价值和研究价值。面对网络广告投放系统的高精准度和高时效的要求,本文从浅层学习和深度学习两个角度开展特征选择、特征学习、分类预测和应用技术研究。以网络广告真实的数据集为实验对象,分别构建浅层学习模型和深度学习模型。为了全面验证深度学习模型,本次研究通过多视角的综合对比实验来证实深度学习的巨大潜力。综合考虑,具体的研究工作主要包括以下五个方面:(1)开展数据处理和特征工程技术研究。从真实数据集出发探索研究类别不平衡性对预测模型的影响机理,不平衡数据的重采样技术。(2)针对数据特征的高度非线性特点,开展浅层学习和深度学习理论及应用技术对比研究。为了克服浅层模型对复杂问题学习能力受限问题,构建深度学习模型,实验通过算法实现证实了相对比浅层学习,深度学习的预测效果提升了约21%,具有很强的优势。(3)为消除类别不平衡对预测模型的影响,提出了一种深度神经网络(Deep Neural Network,DNN)的改进模型——SDNN(Deep Neural Network based on Sampling,SDNN)。基于GPU的并行计算,通过构建模型和实现算法验证了在不影响预测效果的同时,SDNN预测模型训练时间缩短了约73.28%,大幅度的提升了DNN的运算效率。针对系统的精准度和时效性的高要求,SDNN被证实是一种面向大数据更为高效的预测方法。(4)研究Sigmoid激活函数和Relu激活函数对DNN预测模型的影响机理。通过分别构建DNN和SDNN模型和算法的实现,证实了相对比Sigmoid激活函数,Relu激活函数更适合于层次较深的网络模型,基于Relu激活函数的DNN和SDNN更适合复杂问题的建模。(5)为了避免单一SDNN训练的局限性提升模型的泛化能力,开展关键参数dropout敏感性分析研究。