论文部分内容阅读
双隐层主题模型是主题模型的一个变种。传统的主题模型方法比如LDA,PLSA都是单一隐层,对应着文本的主题变量,因而能够对文档的主题进行建模。而双隐层主题模型具有双隐变量,分别可对应着不同的属性,而模型能够最终学习到两种属性之间的关系。如Zhuang等人提出的半定义分类中,双隐变量分别对应着文档的类别和主题,因而能够同时学习出文档的类别分布和主题分布,以及类别和主题之间的对应关系。 值得一提的是双隐层主题模型可以巧妙地用来运用到备受关注的多模态学习问题中去,为此构造了一种双隐层主题模型,结合用户线上搜索记录和线下购买记录这两种不同模态的数据进行商品推荐,取得较好的推荐效果并且学习到了用户的线上搜索和线下购买之间的关系。这种从线上到线下的推荐模型具有普适性,线上数据可以是用户在互联网上的任何行为,在线音乐收听、在线视频观看、网页浏览等等;而线下数据可以是用户在本地生活中的任何活动,商场购物、图书馆看书、旅游、吃饭等等。 论文做出的主要工作和创新点如下: 提出一种通用的双隐层主题模型来学习多模态数据之间的联系,并且运用到O2O(Online to Offiine)消费推荐中。所谓线上到线下的消费模式,文中体现在通过挖掘用户在线上的行为来推荐用户的线下潜在购物品牌。这种线上行为和线下行为之间的关系值得挖掘,对于互联网公司它能够从一个线下的更真实的角度丰富用户画像,促进线上广告的精准投放;对于零售商来说,定位目标消费群体,了解他们的相关特征和喜好,对于产品的设计和推广意义重大。与此同时在“互联网+”日益流行的今天,不仅仅是互联网融入到零售业,而是互联网往全产业链进行融合,所以用户线上行为如何与线下行为发生关联非常具有研究意义和产业价值。 提出一种基于双隐层主题模型的在线半定义分类算法,这种在线算法迎合了业界数据处理的真实需求,比如对于新闻的分类,每时每刻都会有来自各大门户网站的新闻出现,在线算法则能够利用之前的模型来对新来的新闻进行分类同时更新整体模型。从而避免了离线的半定义分类算法在处理流式数据时的冗余训练。 提出一种基于双隐层主题模型的分布式半定义分类算法,将其应用到Spark分布式平台上,除了流式数据的需求外,在处理海量数据时,也需要一个分布式的学习方法。单机串行的半定义分类算法在数据过载的情况下难以正常运行。该方法通过数据并行、分块计算、整体更新的策略,将处理数据均匀分配到各个节点,每个节点独立的进行Gibbs采样过程,然后将采样的统计量汇总,然后传播到个节点,反复迭代。而新型的分布式框架Spark能够缓存变量到内存,非常适合这种迭代的机器学习算法。