并行LDA算法的研究与实现

被引量 : 10次 | 上传用户:atom1999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术和互联网的迅猛发展,各个行业每天所产生的数据量呈爆炸式增长,寻求有效的大数据处理技术已经成为大数据时代背景下人们的迫切需求。Spark是近几年在大数据背景下兴起的一种基于内存的并行计算框架,它的特点是适合运行一些复杂度较高的迭代和非交互式的算法。本文利用了该特点,在主题模型LDA的并行化研究中做了如下3点工作:本文实现了一种使用Gibbs采样在Spark框架下进行LDA模型推导的方法。在算法中,我们采用了一种无冲突的数据分割方法将数据集分成了P*P个数据块,之后将这些分割好的数据块重新排序并将它们整合成P个子集,同时保证每个子集中均包含P个数据块,这样就可以对每个子集进行并行采样。虽然这种方法增加了采样过程中的迭代次数,但是该方法克服了传统并行方法中需要进行大量数据交换的瓶颈,很好的利用了Spark适合迭代式计算的特点。本文使用了在该领域广泛使用的经典数据集,从困惑度、收敛速度和加速比三个方面对算法做了相关的对比实验。实验结果表明,该算法保证了精度,并且在大数据环境下取得了良好的加速效果。本文还介绍了由实验室开发的并行数据挖掘工具BC-PDM,该工具集成了Hadoop和Spark下许多常用的数据挖掘算法,其中包括本文提到的LDA算法。之后,本文详细介绍了LDA算法的集成过程,并结合实际数据给出了使用BC-PDM应用LDA算法提取主题模型的详细过程。
其他文献
为提高人事劳动管理效率,实现人事管理现代化、科学化,企、事业单位都必须重视人力资源管理软件在管理中地位和作用,并要在一定范围内推广和使用人力资源管理系统。本文以察
在多媒体竞相争雄的全媒体时代,军队纸质媒体唯有不断创新,才能赢得读者。有鉴于此,寻找创新的突破口和着力点成为摆在军队报人面前的一道难题。《军队报纸创新的三重路径》
肝移植(liver transplantation,LTx)已成为治疗各种终末期肝病的有效方法。供肝短缺问题制约着肝移植的发展。无心跳供肝由于遭受热缺血损伤、冷保存损伤和再灌注损伤,在这一病
发展权是人权运动发展的最高形态,其鲜明标志是对实质平等的强烈渴望与追求。当前我国农业转移人口市民化改革进入攻坚阶段,实现农业转移人口市民化当务之急是确立发展权利平
文化遗产工作是我国文化事业的重要组成部分,得到了党和政府的高度重视,习近平总书记指出:“推动中华文明创造性转化和创新型发展,激活其生命力,把跨越时空、超越国度、富有
目的:软骨组织是一种高分化的组织,自我修复能力有限。关节软骨损伤是骨关节外科常见的问题,常由创伤和多种疾病引起,大的软骨缺损常有纤维软骨修复。这种修复的纤维软骨无论在生
本文对用人者责任的概念进行了界定。在对比较法上与用人者责任相类似的概念——雇主责任(替代责任)的形成和发展进行研究之后,文章得出用人者责任突破了雇主责任(替代责任)
在科技以迅雷不及掩耳之势的速度发展的过程中,云计算渐渐的成为了课题研究的重点。云计算体系架构共分为三层:基础设施即服务(Infrastructure as a Service)、平台即服务(Pla
5,5’-联四唑-1,1’-二氧羟铵盐(TKX-50)是一种高能量低感度的四唑含能离子盐,性能优于HMX且接近CL-20,有望作为RDX的替代物使用。本论文针对其在生产中存在晶习较差、粒度分布
随着互联网的快速发展以及云计算应用的日益增多,以云计算为服务模式的网络应用在日常工作和生活中所占的比重逐渐增大,从方方面面来讲,人们越来越离不开网络。有越来越多的