论文部分内容阅读
近年来,随着云计算、大数据和物联网等高新技术的成熟及发展,推动传统DM(direct mail,译为“直投广告”)广告媒体行业的快速转型。在云环境的广告投放模型中,DM广告与用户数据量剧增,引起数据稀疏性和算法可扩展性难题,成为精准投放模型亟待解决的问题。目前传统广告投放从用户行为和内容定向两方面来建立模型,通过相似度计算来对用户进行划分,根据用户的共同行为特征或偏好内容进行广告投放。云环境下数据集极度稀疏性,使可用于模型训练的有效数据很少,无法准确找到用户或广告的最近邻居;而大数据量计算,需要耗费大量计算资源和时间,传统方法可扩展性较差。针对传统精准投放模型的弊端,本文以云环境下的DM广告为研究对象,基于二分k均值聚类和LBFGS优化的协同过滤算法提出DM广告精准投放模型,论文的核心工作如下:(1)针对DM广告投放流程,分析传统环境与云环境下广告投放流程的区别,以及云环境下精准投放方法和难点,提出本文要解决的关键问题,设计云环境下精准投放模型的两阶段算法。(2)研究广告精准投放模型的数据处理流程,基于二分k均值和Hadoop分布式数据仓库,对现有数据集转换和聚类分析,根据实时的用户特征与行为分析选择聚类簇,作为精准投放模型中协同过滤算法的数据输入。(3)提出一种基于L-BFGS优化的协同过滤算法作为精准投放模型预测方法,将用户和商品的特征进行组合,使用因子分解机模型(Factorization Machine,FM模型)预测用户对广告的偏好程度,同时降低数据稀疏性影响;使用L-BFGS算法作为FM模型的参数训练方法,具有收敛速度快和占用计算空间低等特点,提高训练FM模型的计算效率和可扩展性,满足云环境下预测精准度和计算效率要求。最后,基于Spark计算框架实现精准投放模型和设计数值实验进行验证。通过不同数据集并与其它三种方法进行实验比较,并分析算法收敛速度、特征数量和数据集大小对算法精准度的影响。结果表明:该模型在四个不同规模的数据集上都有最高的预测精准度,在适当增加迭代次数和数据集特征可得到更好的结果,验证了精准投放模型的有效性。本研究为探索云环境数据极度稀疏情况下的DM广告精准投放问题提出新思路。