【摘 要】
:
计算机网络技术的迅猛发展,使得日益剧增的信息数据不能再采用传统技术来处理。探索一种高效且低成本的方式把有价值的、可理解的知识从海量数据中挖掘出来,对于很多特殊行业
论文部分内容阅读
计算机网络技术的迅猛发展,使得日益剧增的信息数据不能再采用传统技术来处理。探索一种高效且低成本的方式把有价值的、可理解的知识从海量数据中挖掘出来,对于很多特殊行业如天气、遥感、地质监测等具有十分重要的意义。云计算技术在对挖掘处理海量数据方面有着显著的优势,它最早被Google提出,近年来得到了广泛的应用研究。云计算的出现推动了数据挖掘技术的进一步发展。Apache的Hadoop是谷歌云计算平台的开源实现,它具有分布存储海量数据、并行处理任务、较高的性能和可靠性等特点。在深入研究传统数据挖掘算法的基础上,如何在Hadoop云计算平台上对其进行改进,使之能够对海量数据进行挖掘处理并且应用于实际,是数据挖掘相关领域的一个热点。本文以Hadoop云平台为基础,分析研究了将数据挖掘技术应用在天气数据处理方面的相关问题。论文首先深入地介绍了Hadoop云计算平台的相关基础理论知识,概括了基于Hadoop的数据挖掘相关概念和技术,重点研究了贝叶斯分类挖掘算法。然后,在前面研究的基础上,引入相关性分析的概念,提出了基于Hadoop云平台和相关性判定的改进朴素贝叶斯算法,并将其应用于天气数据的分类预测。最后,搭建了Hadoop集群的实验环境,利用该平台进行了算法功能和性能测试,实验结果的对比分析表明:基于本文设计的改进朴素贝叶斯算法,不仅使分类预测结果更加可靠,而且极大地提高了算法的效率,适合于海量数据的处理。
其他文献
目的 :探讨广东省双颌前突患者牙、颌以及软组织的特征。方法 :对 6 0例广东省双颌前突容患者的头影测量描图 ,将测量值与北京正常值相比较 ,总结广东省前突面型患者的特征
目的:探究肝癌介入术后患者应用护理干预对其并发症及生活质量的影响。方法:选取某院肿瘤科收治的肝癌介入术后患者62例,随机分为对照组和观察组。对照组27例均采取常规护理,观
重庆市的地学旅游资源极其丰富 ,可划分为岩石圈旅游资源等 4个大类、地质旅游资源等 1 1个基本类型、地层旅游景观等 1 8种景观和黔江县上白垩统正阳组剖面等 1 0 7个景区 (
在前人研究的基础上总结了天坑的景观特征,参考旅游资源评价的方法和标准建立了天坑景观评价的概念模型,并依据模型与天坑的特点构建评价指标体系,确立了评价因子与评价指标,
针对新时代财务管理面临的问题与对策展开研究。指出财务管理职能方面存在的不足,包括企业财务管理观念落后、运营资金管理不足、财务管理水平低、内控不严格、财务管理工作
<正>国内二甲苯产能分布中国二甲苯产能多集中在华东、华南、华北以及东北等地。华东、华南仍然为主要产区,两者占全国产能比重的48%。中化弘润新建PX装置如顺利投产,届时将
随着经济的发展,科技的进步,人类社会对数据的需求量越来越大,海量数据研究成为当前计算机领域的热点。大数据的处理和分析可应用Hadoop分布式系统,它可实现任务的并行化,提
文章通过分析惠州地区现有胶囊与隔膜储油柜存在的问题,引入金属波纹式储油柜,并对其内油式和外油式两大类型进行结构性能比较,并就性能优越的内油式金属波纹储油柜在惠州地区应
逆向教学设计能够将关注学生的发展和最终结果理念体现出来,这与我国十三五规划中对体育教学的要求也相符。逻辑逆向是逆向教学设计的理论支撑,强调学生对学科价值观念的持久
目的:评价临床药师干预临床不合理用药的效果。方法:通过对处方和病历作回顾性调查,发现不合理用药问题,实施相应干预措施,对比干预前与干预后临床合理用药情况。结果及结论:我