论文部分内容阅读
信息技术是新技术革命的标志,进入新世纪信息技术更是蓬勃发展。与此同时在信息的交互之中大量的数据产生。随着人们不断的研究发现这些数据其实隐藏着很多有用的信息。但是如何发掘出这些信息就如同海底捞针一般的困难。自谷歌推出了“G101计划”,并正式提出“云”的概念和理论。随后亚马逊、微软、惠普、雅虎、英特尔、IBM相继提出自己的云计划。云的出现为资源的共享,降低成本提供了方便。它完全按照用户的需要分配相应资源包括计算能力,存储资源和应用技术服务。数据挖掘技术的出现使得发掘这些“价值”真正的成为可能,把大量的、随机的、模糊的数据进行相关处理,使得那些隐藏的相关的、紧密相联的、潜在的,有价值的信息得以展现。随着数据量的激增,如何才能快速有效并且廉价的找出“准价值”信息,于是本文提出云计算和数据挖掘的结合,一方面充分利用云分布式,并行化,虚拟技术,共享资源等特点,另一方面利用数据挖掘的成熟技术。这样就能提高计算效率,保证负载均衡同时还降低成本。这两者的结合对于科学研究以及企业高层运营发展起到很好的辅助作用,具有深远的学术价值和商业价值。本文主要以本人在某公司参加某通信运营商增值业务综合运营平台项目为依托,研究分析关联算法找出关联规则和价值信息,对企业的管理和高层决策起到帮助和数据支撑的作用。首先,介绍了云计算的相关背景和一些常见技术平台,云计算的几种服务:通信即服务(CaaS)、基础设施即服务(IaaS)、平台即服务(PaaS)、软件即服务(SaaS)。重点对云平台Hadoop平台的架构进行分析。提出数据挖掘相关技术,包括预估模型、聚类、关联分析分类等等方法,并提出数据挖掘的主要研究方向引出挖掘算法。其次,针对序列分析算法、分类分析算法、关联规则算法分类进行分析研究,重点分析关联规则,对算法进行初步描述时引入实习期间接触到的中国某通信运营商相关业务,使用具体的业务对算法进行描述分析。再次,根据传统的Apriori算法,分析算法性能和缺点。提出几种技术层面的改良方法包括基于HASH,基于抽样,基于划分和基于增量划分的方法。为提高算法效率提出了两种改良思路。最后,根据建立的模型搭建数据库,在Hadoop平台上与Apriori算法结合设计出MapReduceApriori算法,该算法能充分利用HDFS分布式文件系统存储数据,又能以MapReduce方式实现并行处理,在海量数据中发现频繁项集。利用号簿管家这个业务的数据进行挖掘分析得到相关结果。分析结果能够掌握该业务的发展状况,进而为业务推广以及集团运营管理和决策提供相应的数据支撑。总之,理论和实验表明,云计算下数据挖掘关联算法对数据价值的发掘有着相当重要的作用,对学术研究和商业运营产生了理论意义和经济意义。