【摘 要】
:
数据挖掘是一种从海量数据中发现有用信息的技术,目前已被广泛应用于金融、电信、网络、气象等诸多领域。分类作为数据挖掘的重要组成部分,引起了众多学者的广泛关注,并取得
论文部分内容阅读
数据挖掘是一种从海量数据中发现有用信息的技术,目前已被广泛应用于金融、电信、网络、气象等诸多领域。分类作为数据挖掘的重要组成部分,引起了众多学者的广泛关注,并取得了一系列杰出的成果。但近年来由于数据流应用的日益广泛,其快速到达、迅速变化、海量、潜在无限的特点,使得原来针对静态数据库的分类算法越来越不能适应数据流的现实。大量的研究工作表明,分类器系综通过训练多个分类器系综表决,从根本上增强分类算法的抗噪和抗概念漂移能力,大大提升分类精度。但由于数据流处理的特殊性,导致传统系综算法在效率和计算开销上制约了分类器的性能。针对这一问题,本文分别从串行优化和并行优化两方面分别提出按需系综的数据流分类算法以及基于云计算的数据流系综分类算法。按需系综数据流分类算法针对传统分类器系综数据流分类算法高内存消耗和计算开销的问题,按需动态调整分类器的个数和权值,从而达到既保持较高分类精度,又降低开销的目的。通过对两种人工数据流的实验分析,算法对隐含概念漂移的数据流的分类效率和精度都有一定的提升,同时内存开销也有较大幅度的降低。云计算为海量数据的分析和贮存提供了经济、快速的解决方案,对于海量数据挖掘中最具挑战的领域—云计算数据流挖掘算法的研究,具有极高的理论参考价值和广阔的实际应用前景。通过综合分析数据流分类算法以及云计算的基本理论,提出了基于Hadoop框架的数据流系综分类算法,算法采用MapReduce并行编程模型对传统基于动态权重系综模型进行改进,以提升算法的分类效率。实验结果表明,该算法在处理快速海量到达的数据流时,其执行效率远高于传统系综算法。综上所述,本文针对数据流的特殊情况设计的优化系综算法,在保持系综分类高精度的同时提升了算法的分类效率,降低了计算开销,使得算法更具实用价值。
其他文献
本研究以“90后”高一和大一学生为对象,采用自编的青少年父母权威认知问卷和他人的亲子亲合、亲子冲突问卷进行测查,考察高一和大一学生的父母权威认知状况以及亲子关系状况
目的:通过体内实验,从分子及整体两个层面探讨急性重症胰腺炎(SAP)时血管内皮细胞损伤所致多器官功能障碍综合征(MODS)的发生机制及白蛋白对血管内皮细胞胰蛋白酶损伤的保护作
近日,辽阳市国土资源局克服“指标少,用地量大”的不利因素,顺利上报2013年城市建设用地情况,确保了全市2013年中心城区的项目用地。此次组卷上报179.5276公顷,其中农用地156.4052公
近日,大石桥市顺利通过国土资源部第四批地质灾害群测群防“十有县”验收,被评为全国地质灾害群测群防“十有县”。大石桥市地质构造复杂,地质灾害种类较多,包括泥石流、崩塌、滑
分析了动车组空调装置的主要用电设备,并对辅助供电系统的结构原理进行了介绍。运用软件MATLAB/SIMULINK成功地建立了主电路模型。仿真表明,动车组空调装置顺序启动与同时启
以南京浦口医院外伤住院患者为研究对象,调查分析该医院抗菌药物的使用情况.分析结果表明,南京浦口医院560例外伤住院患者中,各科室β内酰胺类药物的使用频率均最大,其中普外
骨关节炎(osteoarthritis,OA)是中老年人常见的慢性关节疾病,病理特点为关节软骨退行性改变、破坏及继发性软骨下骨质增生,临床上表现为关节疼痛、畸形、功能障碍等,严重影响患者生
随着城镇化、工业化步伐的加快,失地农民安置问题日渐凸现出来,如何妥善安置失地农民已成为社会发展中一个不可忽视的问题。在我国,农民人口居多,农业是经济发展的支柱。推进城镇
<正>进入新时代,开启新征程。党的十九大胜利闭幕之后,我省各地新闻媒体雷厉风行,迅即行动,认真学习领会党的十九大文件和习近平新时代中国特色社会主义思想,结合报社实际全
在我国经济改革与发展过程中,中小企业以其数量上的显著优势在市场经济中逐步凸显重要,但这并不意味着我国中小企业已经有一个健康的发展环境。中小企业因融资难、管理粗放、