基于分布式数据仓库的分类分析研究

来源 :计算机应用研究 | 被引量 : 0次 | 上传用户:Hamihami
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对GAC-RDB分类算法只能应用于单机版数据仓库的局限性,为了能够更方便、快捷地在云计算平台上开展数据挖掘工作,基于分布式数据仓库HBase,结合GAC-RDB分类算法的实现机理,制定适合分布式平台的运行策略,使用原生HiveQL语言提出了一种分布式GAC-RDB分类算法。实验显示,随着集群中节点的不断增加,算法的运行时间稳步下降。结果表明,在保证算法准确率的前提下,分布式数据仓库能够有效提高GACRDB分类算法的扩展性和运行效率,相对于MapReduce框架,HiveQL语言降低了对数据挖掘从业人员的技术要求,更大程度地减少了算法的开发时间,为挖掘海量数据提供了新的解决方案。
其他文献
<正>党的十八届三中全会通过的《中共中央关于全面深化改革若干重大问题的决定》(以下简称《决定》)提出:"各级纪委要履行协助党委加强党风建设和组织协调反腐败工作的职责,
中国作为全球第一大汽车生产国,汽车行业已成为支柱产业,对于促进经济增长、拉动内需、扩大就业起着非常重要的作用。而汽车零部件行业则是汽车工业重要的组成部分,随着经济全球
1952年世界上第一家专业性融资租赁公司诞生,随后该行业迅速发展,逐渐成为融资中仅次于银行信贷的第二大金融工具,在刺激投资需求、推动信用消费、促进企业理财、拉动整个国民经
资本市场微观结构的信息模型集中探讨的是不对称信息对市场风险资产市场价格的影响。信息是影响市场上投资者交易行为重要的因素之一,投资者可以根据自己的信息,判断市场走势从
当前我国正处于经济社会转型的变革时期,在这一时期,人们的思想和生活方式发生了巨大的变化。国内城乡、区域、产业之间以及不同社会人群之间收入差距呈现出拉大的趋势。尽管在
民办学校教师是民办教育的基石。发展好民办教育关系到我国教育事业的整体进程,关系到社会的需求,也关系到整个国民素质的提高。近十年来,随着社会主义市场经济体制地建立和办学
利用国内外关于生物知识对医学生在医学院校学习影响的报道 ,从生物知识对医学生学习的影响、医学专业课教师对医用生物学知识的需求和医用生物学与中学生物学的关系三方面进
“十二五”时期,文化产业作为“国民经济支柱性产业”,其发展已上升到国家战略层面,旅游业作为一个“战略性支柱产业”其将更进一步增加与文化产业的融合发展。民族文化作为一种
本文主要研究物联网技术在秦皇岛港的应用。探讨通过使用物联网技术建立起秦皇岛港的物联网系统及信息平台,优化港口作业流程及信息供应链;通过本文的研究,旨在使物联网技术真正
大足石刻作为与云冈、龙门、敦煌石窟齐名的世界文化遗产,代表了公元9世纪~13世纪世界石窟艺术的最高水平,是长江流域几千年文明的有力见证,可以说,它既是我国石窟艺术的最后一座