面向文本流的分布式主题聚类技术研究与实现

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:frjazz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
主题模型是文本主题聚类的关键技术,被广泛应用于文本分析、新闻推荐、舆情监控等涉及到文本主题的领域。隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)是一个成功的主题模型,通过指定主题数目,它能优美地解决文本主题聚类问题。然而,确定语料库的主题数目,尤其是在流式计算场景下确定文本流的主题数目,是一件及其困难和不切实际的事。分层狄利克雷过程(Hierarchical Dirichlet Process,HDP)是非参数贝叶斯模型在主题建模上的应用,它的出现有效地克服了LDA在文本流聚类过程面临的主题演变和主题数目增加的困境。为了在流式计算场景应用主题模型,实现大规模地文本流主题聚类,本文做了以下工作:(1)提出基于参数服务器的在线变分贝叶斯推断方法针对目前LDA模型的在线变分贝叶斯推断方法没有实现模型分布式化,难以解决大规模文本主题聚类的问题,本文引入了参数服务器模型,用来解决模型参数的存储、分发与同步问题。基于RDD各训练分区对模型参数更新的贡献比例,提出分区内模型参数的更新策略,并以此提出在线变分贝叶斯推断的分布式算法。依据参数服务器参数分发与更新特点,设计的LDA在线变分贝叶斯推断方法的分布式体系结构,并在Spark上进行了实现。实验结果表明,基于参数服务器的LDA在线变分贝叶斯推断方法比Spark MLlib实现的在线变分贝叶斯推断在收敛性能、运行速度和解决大规模问题能力方面均有大幅度提升。(2)分层狄利克雷过程的分布式优化与实现相对于LDA模型,HDP模型的隐含参数更多,其变分贝叶斯推断也更为复杂。针对目前HDP模型在线变分贝叶斯推断方法没有实现分布式化,难以解决较大规模的文本流主题聚类的问题,本文分析了HDP在线变分贝叶斯推断方法在分布式环境下模型参数存储、分发和更新所面临的瓶颈问题,基于数据并行和模型并行思想设计了HDP在线变分贝叶斯推断的分布式方法,结合参数服务器在Spark上实现了HDP模型分布式系统原型。实验结果表明,分布式HDP系统能有效收敛,相比于当前的单机算法,在略微牺牲收敛性能的代价下,大幅提升了训练速度。本文工作使得文本流的窗口训练时间降为数分钟级别,从而让HDP文本流主题聚类技术进入可实用阶段。
其他文献
大规模图计算分析已经成为目前众多数据分析应用的重要组成部分。图(Graph)作为最基本的抽象数据结构之一,常常被用来表示不同个体间的关系。现在它已经成为许多应用领域的数
创伤、神经退变、缺血缺氧等引起的周围神经损伤已成为临床常见疾病之一。神经一旦断裂损伤将导致神经信号传导途径中断,相应的靶器官功能受到影响,进而机体功能发生障碍,严
随着移动手机的普及和其功能的日益丰富,我们能够通过移动手机采集的数据,推断人们的日常行为。如何提高学业成绩,无疑是学生用户群体最关心的话题之一,学业成绩的影响因素、
股权激励作为解决公司委托代理问题的重要手段,已经逐渐被许多国内外的上市公司采用,同时也取得了很大的效果。而信息技术行业本身具有的高智能性、高成长性、高风险和高回报的特征,使得实行股权激励公司也越来越多。因此,对我国信息技术业股权激励设计的合理性及实施的有效性进行研究具有十分重要的意义。本文针对S公司在2013年和2016年实施的两次股权激励方案,从股权激励的对象、模式及业绩条件等方面对S公司股权激
近年来,针对精准肿瘤医学的创新型临床试验受到了越来越多的关注,肿瘤学的研究焦点也慢慢从肿瘤组织学类型转移到多肿瘤类型的相同基因变异,因此,越来越多关于篮子试验的研究与应用,以节约资源及让更多肿瘤患者获益。篮子试验通常纳入携带相同基因和分子变异的多组织学类型的肿瘤患者,能够同时评估某个靶点明确的靶向药物或组合对不同肿瘤类型患者的安全性和有效性。实现多个独立平行的II期临床试验的传统篮子试验设计往往会
随着技术的进步,微处理器与存储器之间的性能差距越来越大。为了减缓处理器与存储器之间的性能差距,片上缓存被广泛使用。缓存的工作基础是程序数据访问的局部性。然而,很多
传统因果推断主要关注平均处理效应(average treatment effect,ATE),然而这可能掩盖个体患者反应中重要的异质性。随着精准医学和个性化医疗时代的到来,人们已经从以疾病为中心推进到以个体为中心——提供基于个体的证据指导临床决策,以实现患者的最佳治疗。目前在推进精准医学的发展方面一个日益增长的兴趣是评估异质性处理效应(Heterogeneous treatment effect,
随着社会的发展,人们对于微型化大视场光学系统的需求与日俱增,传统的光学系统因为衍射效应的限制,在小型化的同时难以兼顾分辨率和视场角,因此需要研究新型光学系统。仿昆虫
在信息时代迅猛发展的大环境前提下,数据量也随之增长到海量级别,例如图像分类、病理检测、网页推荐等领域,其中标记数据特别稀少,无标记数据大量存在。基于该现实状况,迫切
燃油温度的升高和环境压力的降低均会使液体更容易达到过热状态,而当燃油温度和压力均高于其临界值时,便会进入到超临界态。这两种状态均有助于混合气的快速制备,从而实现高