基于Hadoop的多数据源数据挖掘技术应用研究

被引量 : 8次 | 上传用户:LittleCam
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网技术的快速发展,使得数据的重要性越来越明显。无论是研究机构,还是企事业单位对数据的重视程度都提升到了一个新的层面。如何从大量的数据中提取出对于研究或者企业有价值的信息成为了当下研究数据分析挖掘的重点。数据处理技术水平的不断提升,使得各行各业都从数据分析和挖掘中体会到数据所蕴含的价值。但是面对数据量的急剧增长,数据形式的多样化,数据挖掘技术显得捉襟见肘。尤其是在整合分散业务数据库、搭建数据仓库将消耗更多的时间;在处理分析数据时,其性能和效率往往都相对较差。如何基于廉价机器构架一个针对业务分散,数据量大的数据挖掘平台成了广大研究机构和公司研究的热点。Hadoop技术应运而生,面对大量业务数据时,它的存储和计算能力得到了行业的一致认可。Hadoop是分布式数据处理框架,在应对分散的数据库时,表现出天然的优势,其生态系统中的数据挖掘产品能够完美无缝连接,很大程度上解决了技术之间的兼容性。基于Hadoop的技术特点和优势,搭建适合业务分散、数据量大环境的挖掘平台成为了一种可能。本文首先比较数据挖掘相关技术和基于Hadoop的相关技术的优缺点,然后结合具体的业务需求和实际情况,最终选择了基于Hadoop的多数据源数据挖掘技术作为本课题的研究方向。然后设计了基于Hadoop的数据挖掘平台,共分为四个阶段,三个功能库。其中数据处理库旨在完成数据的载入,数据仓库的搭建,在这个过程中主要采用Sqoop技术进行多数据源的数据整合,采用Hive技术搭建数据仓库并通过HQL语句实现相关数据的查询和获取;算法库的核心工作是对数据进行挖掘和对挖掘结果进行存储,在这个阶段主要是结合Mahout提供的数据挖掘算法和基于MapReduce编程模式改写的数据挖掘算法来实现算法库,另外通过HBase来存储数据挖掘的结果,便于前台页面的展示;规则库的设计是完成数据挖掘工作的闭环,将挖掘结果可视化的展示给用户。最后通过结合业务特点对挖掘结果进行验证,从而体现挖掘工作的价值。这个过程采用Highcharts的图表形式来展示挖掘结果,使得挖掘结果能够直观可视,便于被用户接受。通过上述的设计,构建基于Hadoop的多数据源数据挖掘平台,尝试着解决多数据源数据挖掘的难题。
其他文献
思想政治教育是中国共产党的优良传统,是我国公民精神文明建设的首要内容,是解决我国社会矛盾和社会问题的主要途径之一。社会主义市场经济条件下,我国思想政治教育理论研究和实
随着我国经济社会的快速发展,人民生活水平的提高,汽车在家庭生活中也越来越多。安全驾驶成为公众关注的焦点,而保持一定的车距为必要的安全措施。超声波测距也随着发展起来
2015年5月7日和8月20日,中国自主知识产权的三代核电技术华龙一号在福建和海外开工建设,这是核工业发展史上又一里程碑事件,标志着中国和平利用核能技术进入世界第一阵营,中
<正>电子证据是一种新的证据形式,目前法律还没有明确的规定。笔者认为,以电子形式存在的、能够证明案件真实情况的、具有证据价值的一切材料及其派生物, 均为电子证据。所谓
目的:探讨儿童周期性呕吐综合征的临床特点,提高临床诊治水平.方法:回顾性分析2010年6月~2013年1月在本院诊断的12例儿童周期性呕吐综合征的临床资料.结果:12例患儿,男5例,女7例,
对尿素在活性染料染色中的应用进行了初步探讨,对其作用机理进行了一定阐述。
目的探讨p16、Ki67蛋白在宫颈病变组织中的表达变化及其临床病理学特征意义。方法选取我院收集的40例宫颈癌组织、40例宫颈上皮内瘤变(CIN)组织、40例宫颈炎组织,采用免疫组
保险是进行风险管理和控制的基本手段。职业学校学生实习责任保险保障制度的建立,有利于推动职业学校顶岗实习的健康开展,保障职业教育人才培养模式的顺利实施,完善职业学校顸岗
研究检验了组织正式(工具性支持)与非正式(职业生涯后果、上级支持)的工作-家庭支持措施对员工相关的结果变量的影响,包括工作-家庭冲突感知、离职意向和工作满意度.数据采用问卷
精神富裕有着特定的内涵。为人之基础、固党之根本、兴族之关键、强国之支柱与立世之依靠是其价值突出昭显。而精神富裕的构建,要坚持主导性、先进性、普适性三原则,构建激发