双隐层主题模型研究及应用

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:zbblyd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
双隐层主题模型是主题模型的一个变种。传统的主题模型方法比如LDA,PLSA都是单一隐层,对应着文本的主题变量,因而能够对文档的主题进行建模。而双隐层主题模型具有双隐变量,分别可对应着不同的属性,而模型能够最终学习到两种属性之间的关系。如Zhuang等人提出的半定义分类中,双隐变量分别对应着文档的类别和主题,因而能够同时学习出文档的类别分布和主题分布,以及类别和主题之间的对应关系。  值得一提的是双隐层主题模型可以巧妙地用来运用到备受关注的多模态学习问题中去,为此构造了一种双隐层主题模型,结合用户线上搜索记录和线下购买记录这两种不同模态的数据进行商品推荐,取得较好的推荐效果并且学习到了用户的线上搜索和线下购买之间的关系。这种从线上到线下的推荐模型具有普适性,线上数据可以是用户在互联网上的任何行为,在线音乐收听、在线视频观看、网页浏览等等;而线下数据可以是用户在本地生活中的任何活动,商场购物、图书馆看书、旅游、吃饭等等。  论文做出的主要工作和创新点如下:  提出一种通用的双隐层主题模型来学习多模态数据之间的联系,并且运用到O2O(Online to Offiine)消费推荐中。所谓线上到线下的消费模式,文中体现在通过挖掘用户在线上的行为来推荐用户的线下潜在购物品牌。这种线上行为和线下行为之间的关系值得挖掘,对于互联网公司它能够从一个线下的更真实的角度丰富用户画像,促进线上广告的精准投放;对于零售商来说,定位目标消费群体,了解他们的相关特征和喜好,对于产品的设计和推广意义重大。与此同时在“互联网+”日益流行的今天,不仅仅是互联网融入到零售业,而是互联网往全产业链进行融合,所以用户线上行为如何与线下行为发生关联非常具有研究意义和产业价值。  提出一种基于双隐层主题模型的在线半定义分类算法,这种在线算法迎合了业界数据处理的真实需求,比如对于新闻的分类,每时每刻都会有来自各大门户网站的新闻出现,在线算法则能够利用之前的模型来对新来的新闻进行分类同时更新整体模型。从而避免了离线的半定义分类算法在处理流式数据时的冗余训练。  提出一种基于双隐层主题模型的分布式半定义分类算法,将其应用到Spark分布式平台上,除了流式数据的需求外,在处理海量数据时,也需要一个分布式的学习方法。单机串行的半定义分类算法在数据过载的情况下难以正常运行。该方法通过数据并行、分块计算、整体更新的策略,将处理数据均匀分配到各个节点,每个节点独立的进行Gibbs采样过程,然后将采样的统计量汇总,然后传播到个节点,反复迭代。而新型的分布式框架Spark能够缓存变量到内存,非常适合这种迭代的机器学习算法。
其他文献
随着卫星通信技术的飞速发展和应用领域不断扩大,在轨运行的通信卫星数量不断增加,因设备故障、操作不当或者非法盗用、恶意攻击转发器造成的卫星业务干扰事件持续发生,卫星干扰
随着计算机和互联网的发展,在自然语言处理领域,以双语(或多语)平行语料库为基础的应用日益增多。除机器翻译方面的应用之外,平行语料库的建设对于双语词典编纂、词义消岐和跨语言
本论文的主要工作是地下暗物质实验的数据获取及实时处理研究,文中根据地下暗物质实验的电子学系统规模估算出数据获取的数据量,传统的VME(VersaModule Eurocard)总线带宽不能
计算机芯片设计技术和通信技术日新月异,智能移动设备的使用已经非常普及。视频编码技术已经由标清发展到高清、超高清,高清音视频播放也成为移动设备系统上最重要的应用之一
单光子探测是一种极弱光探测技术,在高分辨率的光谱测量、非破坏性物质分析、高速现象检测、精密分析、大气测污、生物发光、放射探测、高能物理、天文探测、光时域反射、量子
云计算是一种互联网计算新模式,因为其商业模式代表了未来的趋势,近年来受到了工业界和学术界的广泛关注,并且已经逐步应用(?)起来。其中,基础设施云是云计算三种交付模型(即
近几年来,物联网的发展为智能家居概念注入了新的内涵,作为物联网应用的一个新的领域,智能家居系统融合了先进的计算机、网络通信和自动控制等技术,将家庭中的各种家居设备通过家
物联网具有广阔的发展前景,建立共性平台是未来物联网发展的重要趋势,也是物联网规模产业化的制高点。作为物联网感知层的核心组成部分,数据采集终端(简称“数采终端”)完成传感
团购是指将原本单独购买某种商品或服务的消费者组织起来,在一个较短的时间段内集中与商家发生交易,以求得更低折扣或者更优服务的一种购物方式。网络团购是以互联网作为媒介,将
随着计算机应用的深入开展和业务需求的增长,企业对IT系统的发布提出了更高的要求。传统的人工手动部署反应慢、过程复杂和不可控制,造成上线周期过长,导致了新功能的堆积、系统