论文部分内容阅读
随着互联网产业的发展,互联网广告逐渐成为推动互联网产业健康良性发展的重要力量,点击率(CTR, Click-Through Rate)预测为广告的精确化投放提供了依据,而且可以提高用户对所展示的广告的满意度,促使用户点击自己最感兴趣的广告,不仅提高了广告主和广告媒介的收入,而且推动了第三方付费模式的发展,促进了互联网产业的发展。考虑到广告投放的精确化和个性化的要求,.需要针对用户进行广告的精准化推荐,然而对于没有历史记录的用户,仍需为其推荐广告并预测所推荐广告的点击率,是计算广告领域研究的关键问题之一。本文以从用户历史数据中发现用户行为的相似性为切入点,基于发现的用户间的相似关系,为缺少数据的用户预测CTR。由于用户的行为具有不确定性,需要一种框架来表达用户行为中的不确定性,因此本文以贝叶斯网(BN, Bayesian Network)这一重要的概率图模型作为发现用户行为相似性的模型中不确定性知识表达和推理的基本框架,通过分析用户历史数据来构建贝叶斯网,反映用户间的直接相似关系及相似关系的不确定性,进而基于贝叶斯网的推理机制挖掘用户间的间接相似关系,从而为没有历史点击记录的用户预测其对广告的点击率。本文的主要工作及贡献可概括如下:■为了构建反映用户间在广告搜索行为方面相似关系的模型,称为相似贝叶斯网(SBN, Similarity Bayesian Network),本文针对SBN有向无环图(DAG, Directed Acyclic Graph)结构构建这一关键和难点,通过对用户搜索广告的历史记录进行统计计算,给出构建网络结构的方法,进而发现直接相似用户。■利用贝叶斯的概率推理机制,给出基于Gibbs采样算法的SBN推理,高效地发现SBN中的具有间接相似关系的用户。进而利用用户间的这种相似关系,给出预测CTR的算法。■通过建立在KDD Cup2012Track2的训练数据集上的实验,测试了方法的有效性,并设计开发了基于本文方法的“基于贝叶斯网的精确化广告投放仿真软件”。