论文部分内容阅读
随着科技的进步,媒体的形式发生了巨大的变化,从印刷刊物到无线电广播、电视,再到现在的互联网。互联网技术使得用户与媒体的交互数据的大规模采集成为可能,催生了数据驱动的媒体传播效果研究的需求,即设计模型或者方法从数据计算出发对媒体的传播效果的客观评价。本文主要针对广告数据展开数字广告渠道媒体的传播效果的评价研究。广告的形式和投放渠道都多种多样。通常来说,一个产品的多条广告会同时投放到多个媒体/渠道,也就是说,用户会和多个媒体/渠道接触,因此,我们观察到的广告传播效果是广告在多个媒体/渠道对用户影响的叠加。如何分别计算单个媒体/渠道的效果是一大难点。本文基于时序点过程对用户的行为进行建模,在已有的基于生存理论的加性风险模型的基础上分别从引入广告渠道间的相互作用和考虑用户多次购买行为这两个方面开展研究,设计了两个数据驱动的数字广告媒体评价归因模型,计算各个广告媒体的影响力。针对现有的数据驱动的归因模型大多数没有考虑广告之间的相互作用的缺陷,本文借用了矢量的合成的概念在归因模型中引入了协同作用和拮抗作用这两种因子,以实现非线性叠加多个广告影响力。在真实广告数据集上的实验表明,在考虑了相互作用之后,对用户行为的预测变得更为准确。分析模型训练得到的参数发现,广告渠道之间的拮抗作用明显大于协同作用,特别是同类型、同网站的广告之间拮抗作用尤为明显,而不同的网站的广告之间则表现出更多的独立性。针对现有的基于生存理论的归因模型不能处理用户多次购买的问题,本文将多次购买行为建模成时间域上的点,并使用非均匀泊松过程来对用户的购买行为进行建模。泊松点过程的条件强度函数随着用户与广告媒体的交互动态变化,以此来模拟多个广告渠道对用户的购买行为带来的影响。本文采用了MM算法进行迭代优化来对该模型进行优化,可以非常高效地学习到模型的参数。实验证明,通过考虑用户多次购买的信息,用户的转化预测变得更加准确。对用户与广告媒体的交互行为的建模并不是本文的最终目的,在用训练数据拟合模型参数之后,本文计算出各个广告渠道的贡献度,并将各个广告渠道合并到网站和类型得到对媒体传播效果的评价。将本文提出的两个归因模型与其他基准模型的结果对比发现,本文的提出的两个模型对各个广告媒体效果的评价结果在大小排序上接近,合理性比其他模型更强,它们给出的搜索网站效果最高的结果也更为符合业界的认知。从按类型和按网站这两个方面的评价结果的对比发现,不同网站的影响力差异要大于不同类型的影响力差异。