基于Hadoop的农业数据挖掘系统的研究与实现

被引量 : 11次 | 上传用户:huangwei0541
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着农业现代化水平的不断提高,农业领域的信息数据呈几何级递增,逐渐满足了大数据的四V特征,形成了农业大数据。农业大数据还具有一些特有的特征,如我国地大物博,土壤、作物、病虫等类型繁多,它们之间的关系和影响复杂,再加上存储介质的多样性,使得农业大数据还具有动态、多维、大量、不确定、不完整等特征,这些特征大大增加了对其进行数据处理和数据存储的难度。数据挖掘系统是对数据进行存储并利用数据挖掘等手段从数据中获得知识的一种系统架构。随着农业大数据的到来,传统的数据挖掘系统已经不能很好的适应其各种特性。系统中的数据挖掘模块和底层的数据存储架构在处理海量农业数据时存在存储能力不足及资源处理效率不高等问题。如何设计数据挖掘系统的架构及其中的数据挖掘模块以高效的应对农业大数据的发展是一个重要的问题。为了应对大数据的处理,谷歌提出了一种商业计算模型——Map/Reduce,它利用key-value的数据结构和Map与Reduce两个处理函数将复杂的计算任务分布在由大量计算机构成的计算节点上,利用其分布式的并行处理架构可以高速的处理海量的数据。Hadoop是Map/Reduce计算模型的一个实现,是用于构建分布式系统的基础架构。使用Hadoop框架有利于我们方便、快速的利用Map/Reduce实现计算机集群。并且在Hadoop平台上,还可以采用HDFS(分布式文件系统)来实现超大文件的存储和容错。本文在分析农业数据特征和处理过程的基础上,选取中国农科院提供的农业数据作为研究对象设计出基于Hadoop平台的农业数据挖掘系统,主要做了如下工作:在系统架构方面设计出高效,易扩展的分布式数据挖掘系统框架。在系统算法层面,主要对CART(分类回归树)算法进行了如下改进:1.利用系统的Map/Reduce编程模型设计了新的数据结构,将该算法中的最佳属性选择和同一层节点的分裂同时进行,大大减少了数据集的处理时间;2.消除了重复计算和不必要计算,减少了计算量,有效的提升了系统的效率;3.对计算中的连续属性表和离散属性表执行预排序,有效的减少了离散属性的分裂时间。在数据存储方面,利用HDFS进行大数据的分布式存储。最后利用农科院提供的农业数据构建了一些大型数据集,对系统效率进行测试和分析。测试表明,算法可以成功的并行运行在系统中,并且在对算法改进后大大减少了数据处理的时间,系统效率得以提高。
其他文献
目的观察妊娠早期单纯甲状腺自身抗体阳性孕妇妊娠晚期甲状腺功能(甲功)变化及妊娠结局,了解甲状腺自身抗体对妊娠的影响。方法选择妊娠早期127例甲功正常、甲状腺过氧化物酶
末次冰消期,巨量的冰盖从大陆和海面上消融,导致全球平均海平面上升120~140m.从地质记录中至少识别出3次规模巨大的冰盖快速融化和冰融水倾泻事件,按照发生时间先后,分别被命
随着经济社会的发展,排污权交易在我国环境经济政策当中的地位越来越重要。2007年开始,中国环境保护部开始在部分省市进行排污权交易试点,2014年国务院发布《国务院办公厅关
汽车工业的高速发展导致我国隧道、地下车库等半封闭空间空气污染十分严重,其中NOx对污染贡献最大。现有的半封闭空间气体净化技术普遍存在成本高或治理效果不佳的缺点。光催
目的:探讨重症监护病房导管相关感染防控中应用PDCA 循环管理模式的临床效果。方法:重症监护病房收治行中心静脉置管患者120例作对照组并予以常规护理干预,重症监护病房收治
在过去的10年里,有机小分子催化作为一门环境友好的有机合成方法学在不对称催化合成中的应用得到了重新发掘,新颖的有机小分子催化剂和新型有机小分子催化的不对称反应受到广
目的皮肤作为人体最大的器官,其在调节体温、排泄代谢废物以及维持机体内环境稳定等方面均发挥着重要作用。但是,皮肤在日常生活以及战(创、烧)伤中也最易受到损伤。轻度受损
农业科学数据存储是农业科学研究的重要部分。现有农业存储系统在性能、存储容量、数据的可靠性、存储成本等方面存在很大的不足。为了解决农业科学数据的PB级非结构化且形式
为适应EPC总承包项目的需求,很多工程公司对自身组织架构进行了重组改革,引入了矩阵式组织管理模式。这种模式能很好的适应工程公司同时开展多个EPC总承包项目的要求,促进了
随着信息时代的到来,汽车美容、贴膜行业发生了巨大的变化,各种智能设备和自动化设备先后应用到汽车美容和贴膜行业,对人员管理和精细化管理提出更高的要求,企业要想再竞争中