基于Spark平台的热点话题发现算法并行化研究

来源 :软件导刊 | 被引量 : 0次 | 上传用户:kage
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
话题发现中最常用的方法是基于增量式的Single-Pass聚类算法,但是其依赖于文档的输入顺序且效率低下。针对这两个问题,提出在多层次话题发现基础上,基于Spark平台的算法并行化,将传统的Kernel K-means算法进行并行化处理,以并行化的方式对数据进行初步聚类,并对后续数据进行增量式聚类。实验表明,多层次处理提高了话题的准确性;同时,并行化方式相比传统的话题发现方法,其效率有较大提高。
其他文献
为探究移动学习共同体的内部运行规律及其对学习者知识发现的积极作用,采用调查研究法对前期需求和后期结果进行调研,以行动研究法开展为期10周的实践研究,并根据实践中出现的问
根据电子商务企业调研数据显示,企业对推广销售客服人才是有很大的需求的。本文从电子商务客户服务课程设置现状分析现阶段在技工院校对电子商务客户服务方向的重视程度不够
大学生要想创新创业成功,一定要具备流畅语言表达能力、复杂逻辑阐述能力和持续质疑论辩能力。本文结合自己的教学实践,对每一种能力的培育都采取了相应的措施。在普通话课堂
成本控制是工程建设管理当中的重要部分,贯穿于工程建设的全过程,即从工程前期的可行性研究到决策,再到施工设计,最后到竣工交付都要进行建设费用的确定控制和管理。而随着城
随着互联网技术和虚拟化技术的不断发展与成熟,云计算应用越来越普及。分析了传统市县地震服务平台系统中存在的缺点及不足,介绍了VMware虚拟化平台的组成、设计架构和市县地
通过分析束缚住宅设计中不合理的制约因素,提出住宅设计应遵循建筑设计的共性原则,打破"平均化"思维定式和经济制约观念,创造个性化的居住空间及环境.
合阳中学校园景观设计遵循人与自然和谐统一的原则,注重校园历史文化及地域特征,通过艺术化、人性化的空间塑,来创造富有特色的绿色生态型校园.
教师是一门危险的行业,迟迟不肯入这一行,也是因为怕。  田瑊掀翻了桌子;李井田对从他课桌旁经过的同学恶语相向;李君毅运动场上骁勇得很,可是总迟到,语文阅读题也写不了几个字;李弋舟的字,个个都长着尖尖的“刺”,合起来一个字至少要辨认三分钟;陶文博不笑也不说话,眉间锁着好些阴云,你也不知道何故;暄玉在作文里说想养猫,想了8年,可是妈妈依然“铁石心肠”,不予理会。期中考试全班成绩都不理想,进一步证实了这
期刊
目的:研究伴中央颞区棘波儿童良性癫痫(BECT)患儿的语言智商(VIQ)与高频振荡(HFOs)之间的关系。方法:运用中国-韦氏儿童智力量表(C-WISC)对50例BECT患儿及50例健康儿童进行智
文章选取岷江流域桃坪羌寨典型的羌族民居作为研究对象,在夏季和冬季进行现场测试,对民居的室内热环境及热舒适性进行定量研究,研究显示羌族传统民居夏季热舒适度良好,冬季室