基于Hadoop平台的LDA算法的并行化实现

来源 :第三届CCF大数据学术会议 | 被引量 : 0次 | 上传用户:jemi0926
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  目的随着互联网的飞速发展,需要处理的数据量不断增加,在互联网数据挖掘领域中传统的单机文本聚类算法无法满足海量数据处理的要求,针对在单机情况下,传统LDA算法无法分析处理大规模语料集的问题。方法本文提出基于MapReduce计算框架,采用Gibbs抽样方法的并行化LDA主题模型的建立方法。利用分布式计算框架MapReduce研究了LDA主题模型的并行化实现,并且考察了该并行计算程序的计算性能。结果通过对Hadoop并行计算与单机计算进行实验对比,发现该方法在处理大规模语料时,能够较大地提升算法的运行速度,并且随着集群节点数的增加,在加速比方面也有较好的表现。结论基于Hadoop平台并行化地实现LDA算法具有可行性,解决了单机无法分析大规模语料集中潜藏主题信息的问题。
其他文献
  图是常用的数据结构之一,目前广泛应用于社交网络、生物信息网络、计算机网络等实际应用领域。这些大规模图在刻画实际应用时,会随着时间推移、实际应用语意的改变而发生拓
会议
农用抗生素具有选择性较强、高效低毒的特点,使用抗生素代替化学农药是今后发展的方向之一.目前报道的防治植物病害的抗生素种类虽多,但能在生产上大面积推广应用的种类却较
  近年来随着认知科学研究技术的不断发展,研究者可以利用脑电图仪(Electroencephalogram, EEG)将不间断的大脑活动所产生的生理信号记录下来,用以直接研究情感状态和大脑
会议
氮氧化物(NOx)是大气主要污染物之一,目前,控制NOx排放的主流技术是选择性催化还原(SCR)技术,而影响SCR反应脱硝效率的重要因素是催化剂的选择,现在工业上最常用的SCR催化剂是V2O
  由于维度爆炸及可视空间有限,用户很难可视化并探索、分析高维数据。早期的一些工作主要是利用统计方法来产生隐式维度,但是这些方法不能利用用户现有的知识进行解释。因此
会议
  Certain carotenoids,most importantly β-carotene,are cleaved to vitamin A within the body.Red-fleshed Ioquat(Eriobotrya japonica Lindl.)fruits are naturally
会议
图书流通量在中职图书馆中起着举足轻重的作用,关心和支持图书馆工作的人员均应积极促进图书流通,提高图书利用率。本文介绍了几种增加图书流通量的有效方法。 Book circula
泛素-蛋白酶体途径是真核细胞内最为重要的蛋白质降解系统,它通过选择性清除细胞内错误折叠的以及特定环境下需要降解的蛋白质,对维持细胞正常的生理功能发挥至关重要的作用。
  针对电子政务云跨域访问中用户资源共享控制分级分域的安全需求,提出了一种基于SAML断言的联合访问控制方案。该方案采用了云计算典型访问控制机制——身份和访问控制管
犬瘟热(CD)是一种由犬瘟热病毒(CDV)引起的犬急性传染病。CDV属于副粘病毒科的麻疹病毒属。主要引起犬科、鼬科和浣熊科动物犬瘟热的发生,大熊猫和小熊猫等我国珍稀野生动物也