分布式流式主题模型的设计与实现

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:jianjia88521
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
主题模型作为一种能够挖掘文本语义的技术受到了研究者的青睐,并且在业界得到了广泛的应用。在社交网络等领域中,主题模型是文本分类,检索以及推荐等应用的一项重要技术。  随着移动互联网的发展应用,社交网络等许多场景中数据的产生正呈现出越来越快的增长趋势。许多数据都具有高速、海量、实时、突发等主要特性。人们通常形象地将这类数据称为流式数据。  面对这种新型的数据流式特性,以往的主题模型的训练方法遭遇了巨大的挑战。流式机器学习的主要挑战在于,根据流式数据的特性,算法必须满足使用内存大小固定,高效实时,并且能够克服数据变动带来的对模型训练的影响。以往大部分的主题模型算法实现都采用了批量的学习方法,但是批量学习并不满足上述要求。  通过调研,本文发现流式主题模型的设计与实现的主要难题在于:(1)流式数据具有海量无限的体量,并且数据分布时刻发生变化;(2)在社交网络等类似的数据环境下,不断会有新词出现,词表是动态增长的;海量参数的分布式存储与并行更新同步困难;(3)流式学习系统对算法实时性的要求极高;  本文主要工作是设计与实现高效的分布式流式主题模型,以应对上面提出的挑战。首先,本文提出了一种针对流式数据的在线流式主题模型。该模型能够有效地克服流式数据的无限性与变动性,不仅算法能够动态地更新模型,而且具有概念迁移的能力。然后,本文从算法实现的角度出发设计了稠密和稀疏并存的混合参数数据结构,解决了动态词表所带来的参数存储与更新的难题。最后,本文提出了一种新的采样方法,大大降低了采样的复杂度,并在此基础上进一步优化了算法的实现,保证了系统对算法实时性的要求。本文提出的分布式流式主题模型的实现是一种高效,实时的具有动态演化能力的主题模型。
其他文献
随着信息技术的发展,社会管理日趋电子化,自动化。在这样一个庞大的社会网络体系中,系统安全十分重要。准确地鉴别个人身份是各安全系统的必要前提。人脸是区别人的重要器官,利用
该文试图通过对分布式实时中间件系统中的容错技术进行研究,以达到降低设计和开发分布式实时应用成本的目的.第二章介绍了四种分布式实时系统结构模型,分析了几个典型的分布
图像恢复的经典方法包括逆滤波、维纳滤波、有约束最小二乘滤波等方法,图像的盲恢复方法是目前图像恢复领域中的一个研究热点。本文主要讨论了盲恢复算法中的先验模糊辨识方法
学位
该文在紧密联系大型钢铁企业的生产实际基础上,结合实际工程背景,提出了在大型钢铁企业中构建实施企业级数据仓库的整体方案.具体内容包括:首先介绍了数据仓库以及基于数据仓
信息化是高效管理的必由之路,许多机构(政府,企业等)经过近几年的信息化建设,已经初步具备了信息化的软硬件设施,在这些信息化过程当中,管理信息系统起着非常重要的作用,许多机构对自
学位
对于高分航空遥感图像的交通信息提取而言,对车辆目标的位置、朝向角和类别三要素的估计是开展后续一系列智能信息提取任务的基础和前提。对于现阶段常见的高分航空遥感图片而
维吾尔族和哈萨克族分别是新疆第一和第二大少数民族。维吾尔文与哈萨克文分别是新疆维吾尔族与哈萨克族群众在日常学习、工作和生活中使用的主要文字。新中国成立以来,我国的
社会化生产是人类社会生产力发展到高级阶段的必然形式。传统产业如机械制造业、化学工业、电子产业等都先后进入社会化生产阶段。在软件领域,为了解决“软件危机”问题,人们提