论文部分内容阅读
粗糙集理论作为一种处理不确定、不精确或噪声数据的重要工具已经在多个领域,如数据挖掘、模式识别、人工智能、认知科学等得到广泛应用。近年来,基于粗糙集的属性约简成为一个非常热门的研究方向,这是因为属性约简在机器学习、模式识别和数据挖掘中起着举足轻重的作用。然而,随着数据的爆炸式增长,数据的种类越来越丰富,不仅在数据规模上不断膨胀,而且数据的维度也很高。基于单一节点的数据挖掘平台已不能完成海量数据的存储和分析任务。云计算技术的提出为解决大数据处理问题提供了解决方案,Hadoop是应用最广的云计算平台,HDFS和MapReduce是Hadoop的两个核心技术。论文详细分析了Hadoop平台以及MapReduce的编程框架。基于MapReduce对粗糙集属性约简算法进行了并行化分析。论文主要做了以下工作:基于Hadoop分布式平台,提出了一个数据挖掘框架,该系统框架提供一个浏览器形式的用户交互界面,用户可以通过自己的需求提交数据挖掘任务,服务器接收到任务后就会生成对应的Hive命令。 Hive server服务将Hive语句交给Hive执行, Hive语句被转换为一系列MapReduce作业。经过主节点的调度和分配,将任务分派给集群中的节点执行。最后将计算结果返回到调度节点进行汇总,再将最终结果返回给用户。通过实验的对比分析,表明此框架在处理大数据方面有很高的执行效率。基于MapReduce编程框架,对并行的数据挖掘算法并行化进行了分析,并对贝叶斯分类器进行了并行化的分析和实现,在此基础上分析了粗糙集属性约简算法的并行化方案。并行后的属性约简大大降低了时间复杂度,随着样本容量的增加,总的运行时间将呈线性增长。为了提高算法的运行效率,对算法进行了优化处理,使算法执行中间过程大大减少中间结果的输出。最后通过数据分析了基于MapReduce的并行算法的正确性、高效性和可扩展性。