论文部分内容阅读
随着社交网络、网络技术、传感器技术、移动互联网技术的快速发展,海量数据不断被产生,世界正从IT时代进入到DT时代。由于数据规模的快速增长,中小企业之前建设好的传统的基于单机数据分析系统在服务器利用率、存储、数据挖掘方面都显得不尽人意,无法再有效地解决中小企业信息价值化实施过程中所面临的众多问题。获得有价值的数据分析结果已逐渐成为中小企业增强自身竞争力的重要手段之一。本文研究了如何进行分工、协作,完成数据传输、存储、处理、采集等工作。如何搭建基于Hadoop的大数据平台,解决传统数据仓库在海量数据存储、处理等方面的不足。提供基于云计算3种服务模式之一Saas(软件即服务)的模式数据挖掘云服务。该数据挖掘服务突破传统数据仓库在数据挖掘上的单节点的瓶颈凭借Hadoop平台横向扩展的能力。它针对Hadoop的分布式文件存储系统HDFS中的海量数据进行挖掘,使用Hadoop平台的MapReduce进行并行计算。为进一步验证该平台的稳定性,在该平台上运行改进的K-Means算法和改进的Apriori算法。实验结果表明,在Hadoop平台上运用改进的K-Means算法和改进的Apriori算法分析海量的数据,可以明显提高数据挖掘的效率和结果的准确性。因此数据挖掘云服务可以有效解决中小企业在人才、资金、技术等方面的不足而导致的获取有价值的数据比较难的问题,通过多种算法模型满足其个性化、灵活性需求。目前帮助决策者更好地做出决策已成为数据挖掘云服务技术领域的新课题。本文通过对中小企业的需求以及数据挖掘云服务的应用价值进行分析,为中小企业提供有价值的信息。完成的主要工作及取得的成果是:1、对Hadoop、大数据平台、数据挖掘、云服务的发展现状进行了研究和分析,论述了大数据平台搭建和数据挖掘云服务,探讨了基于Hadoop的大数据平台提供数据挖掘云服务的意义,完成了这一课题的理论背景研究。2、结合理论研究,参考了国内外大量的研究成果,充分考虑到我国中小企业对数据要求价值化实际情况,明确数据挖掘云服务的研究目的,从用户的使用需求出发建立一套基于Hadoop的大数据平台。3、利用虚拟化技术和大数据相关技术建立基于Hadoop的大数据平台,提供给中小企业数据挖掘的云服务。4、在大数据平台上运行改进的Apriori并行算法和改进的k-Means算法的代码jar包,得到数据挖掘的准确结果。5、实现了快速、实时、准确、高效地进行数据挖掘分析,解决了传统数据挖掘无法处理海量数据的难点,节约中小企业享有高价值数据分析结果的成本,降低了中小企业对数据价值获取的技术要求,对各种行业海量数据进行数据挖掘,对于中小企业数据价值化和做出正确的决策有着重要的意义。