面向智慧环保大数据的数据挖掘研究

来源 :中国航天科工集团第二研究院 航天科工集团第二研究院 | 被引量 : 0次 | 上传用户:yxsaisai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
智慧环保工程中存在着海量数据,这些数据来源于多个业务信息系统,造成了数据具有多源异构的特征,难以利用数据挖掘方法从中挖掘出有意义的信息。针对该问题,本文提出了基于Hierarchical-Global-as-View(HGAV)模式映射的多源异构数据集成方法,通过将分散的各个数据源映射到一张统一的视图中,为数据挖掘提供了标准化的数据基础。作为数据挖掘的经典算法,Frequent-Pattern-growth(FP-growth)算法能够通过扫描两次数据库从中挖掘出关联规则。然而,FP-growth算法是驻留内存的算法,随着数据量的增大和FP-tree分支增多,它会消耗大量内存,直至内存不足,算法无法继续执行,所以随着数据规模的急剧增长,解决这一问题的需求变得尤为迫切。针对该问题,本文对FP-growth算法加以改进,提出了基于Self-Organizing-Map(SOM)划分的FP-growth算法。该算法首先利用SOM算法对数据集进行聚类分析,得到数据分类模型;其次,按照分类模型将数据划分成若干个子集;最后在各个子类上分别进行FP-growth挖掘。将大数据集按照一定的规则划分成若干个子集分别进行处理,在很大程度上解决了因为数据量过大而无法进行数据挖掘的问题。  改进的算法将数据集划分成若干个子集分别进行FP-growth挖掘,具有明显的并行运算特征,为了进一步提高算法运算速度,继续研究了分布式并行计算方法。考虑到目前Spark分布式计算框架性能较为优越,采用基于Spark的分布式计算框架来实现改进算法的并行运算。通过将数据子集发送到多个计算节点上进行分布式计算,改进算法的性能得到了大幅度的提升。最后通过搭建面向宁东智慧环保的大数据分析系统,将本文所提出的算法应用到系统中,验证了算法的可行性,并且该系统挖掘出的关联规则能够为相关决策人员提供重要的信息服务。
其他文献
ERP系统是目前企业数字化管理平台的核心软件系统,为适应企业的动态性和复杂性,ERP系统需要针对不同的管理模式与管理流程,实现功能可裁剪性、系统可配置性以及流程可重构性.
为了将先进的工程项目管理理念和方法运用到华润电力登封电厂一期工程的建设中,全面提升工程项目管理水平,决定在本工程项目建设中同步建设管理信息系统,进行工程项目管理。为此
动态联盟作为提高企业群体能力的全新企业组织模式,成为新一代企业的发展热点.大型制造型项目通常由于所需资源复杂多样,难以在单个企业内全部获得,所以企业出于能力限制与外
事务是具有ACID(Atomicity,Consistency,Isolation and Durability)特性的原子操作序列,是构建可靠的分布式应用程序的关键。分布事务监控器为大规模事务处理提供可靠的运行环
医学图像处理是模式识别的一个重要分支.就图像处理及识别技术而言,我们已经提出了一系列卓有成效的理论及方法.然而该技术的普及和应用,在很长一段时间里都不尽如人意,究其
演化算法是模拟生物演化的自然过程的启发式随机搜索方法,它具有简单性、全局搜索性和本质并行性,在科学研究、工程设计和优化求解等领域得到了广泛的应用,并获得了长足的发
教育资源的共享化、数字化是实现现代远程教育革新的重点,其中基于内容的视频检索(Content Based Video Retrieval,CBVR)在远程教育上的应用是最近新提出的概念.由于人们逐渐
随着芯片集成度的日益增加,体系结构工程师们不得不综合考虑资源划分、复杂性和有效性,设计更好的十亿晶体管集成度级体系结构,踪迹处理器是众多体系结构中较具代表性的一个.
操作系统是计算机重要的系统软件,它负责控制和管理着计算机所有的软、硬件资源.由于操作系统的重要地位,使攻击者常常以操作系统为主要攻击目标,因此研究保护操作系统的方法
目前文件系统的安全性检测已成为入侵检测系统的重要组成部分,而对文件系统的性能监控也产生很多研究成果。虽然它们同为文件系统监控的重要组成部分,但长期以来各自为阵,缺乏一