论文部分内容阅读
互联网的普及极大推动了在线广告活动的发展。与传统媒体广告相比,在线广告有非常丰富的信息资源,并且可以通过定向技术实现广告的精准投放。这些丰富的信息资源不仅包括用户的姓名、年龄、地域等静态属性,也包括用户的在线查找、广告点击等动态行为信息。对于大多数比较受欢迎的网站,活动用户的数量是非常庞大的,如果针对单个用户逐一投放广告,往往会给系统带来较大的负担。而用户分组正是减轻这一负担的一种有效方式。用户分组把相似的用户分在同一个组中,然后对用户组内的用户投放相关广告。对于行为定向技术,用户分组从用户的动态行为信息中挖掘用户的兴趣,这样,一个用户组就代表了一种潜在的兴趣。针对用户组投放与该兴趣相关的广告后,用户组内的用户会有较大的概率去点击广告,进而产生购买等转换行为,给广告主带来更大的收益。现有的用户分组方法存在两个比较大的挑战。1.基于无监督聚类算法(例如K-means算法)的用户分组方法没有考虑用户属性之间的语义关系,并且只允许一个用户属于一个用户组。但是在实际情况中,用户的一系列行为属性之间存在潜在的语义关联,一个用户可能同时会产生多个不同的兴趣。如果考虑数据间的潜在语义,并且允许一个用户分在多个用户组中,能够更加精准地表达用户的兴趣或购买意图。2.基于潜在语义算法(例如PLSA或LDA)的用户分组方法能够考虑到用户数据之间的关联,也允许一个用户同时属于多个用户组中。但是这种方法把用户看作数据实例,即使潜在的语义是被嵌入在经过转换后的数据中的,聚类算法也仍然间接地对用户进行聚类。而且现有的分组方法只从用户的在线查询行为中挖掘其兴趣,忽略了广告和用户兴趣之间的关系。针对以上问题,本文提出一种基于LDA的用户分组方法。与现有的基于LDA的用户分组方法不同,首先,本文不仅考虑用户的单个查询行为信息,而且将用户发出的查询和点击过的广告结合起来,更加精准地描述用户的在线行为。其次,本文的数据实例采用用户发出的查询和点击过的广告,把与之相关联的用户作为属性,能够直接得到用户分组结果。本文的主要贡献包括以下几个部分:1.给出了用户分组问题的形式化定义。现有的基于潜在语义的用户分组方法只采用用户发出的查询数据对用户进行分组,本文首次引入用户点击过的广告,提出一种更加精确的描述用户在线行为特征的观点。通过分析用户发出的查询和点击过的广告与用户的兴趣之间的关系,结合用户发出的查询和用户点击过的广告共同刻画用户画像,并在此基础上给出用户分组的形式化定义。此外,本文从曝光和点击的角度出发,关注用户分组之后用户组的质量对广告投放带来的影响,定义用户分组结果优化的问题。2.提出了一种基于LDA的用户分组方法。现有的基于潜在语义的用户分组方法将用户发出的查询作为特征向量代表用户,对用户进行间接聚类。本文分析比较LSA、PLSA和LDA三种能够用于潜在语义分组的聚类方法,LSA算法的结果只能从数学的角度解释,PLSA算法参数空间的大小随着训练集的增大而增大,因此本文基于LDA算法对用户进行分组。与现有的方法不同,本文将<用户发出的查询,用户点击过的广告>组合作为数据实例,与之相关的用户作为属性,运用到LDA算法中,直接获取分好的用户组。3.设计了三种用户分组结果优化方法。现有的用户分组相关研究没有涉及对用户分组之后的结果进行后续优化的工作。本文提出三种方法来优化用户组的质量。第一种用户组合并法主要针对小用户组现象,在保证CTR值的同时补充用户以满足曝光量;第二种固定阈值法主要针对用户组中低成员概率的问题,为所有的用户组定义一个固定阈值来移除不满足阈值的用户,以得到点击率(Click-through Rate, CTR)提高值更大的用户组,但这种策略可能会引起小用户组现象;第三种动态阈值法基于前两种策略,根据各个用户组中的用户分布动态分配阈值,同时保证了高曝光和高CTR。本文提出一种基于LDA的用户分组方法,并对分组后的用户组质量进行优化,在真实的数据集上对用户分组方法和用户分组结果优化方法进行了全面的实验。多组实验结果表明,比起现有的用户分组方法,文章提出的基于LDA的用户分组方法使用简单的查询和点击信息就能够在新广告上获得更高的CTR值,针对用户分组结果的优化方法能够得到更高质量的用户组。