Hadoop下基于数量关联规则的数据挖掘研究

来源 :重庆交通大学 | 被引量 : 0次 | 上传用户:liujiecumt
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着大数据时代的到来,不仅数据规模变得庞大,数据种类变得多样化,数据维度也在不断增长。从海量、多类型、多维度的混合数据中挖掘出有价值的信息是信息化社会发展的趋势。但是在海量、多类型、多维度数据基础之上采用传统的机器学习算法已经不能满足在有限的时间内完成要解决任务的要求。因此,必须寻求新的方法来解决此问题。目前,基于云计算的海量数据挖掘技术,已得到工业界和学术界的普遍认可。基于Apache软件开源组织Hadoop云计算平台的数据挖掘技术也成为了工业界和学术界共同关心的热点技术之一。本文在研究数据挖掘理论和Hadoop分布式技术基础之上,利用Hadoop提供的MapReduce分布式计算模型,以分类型和数值型混合多维数据为基础,以关联规则和聚类分析为研究对象,实现了基于Hadoop云计算平台的数据挖掘算法研究,主要完成了以下几方面的工作:1)针对分类型和数值型混合多维数据,提出了一种基于Hadoop的数据预处理架构,实现了数据预处理方法和整体数据处理流程。2)通过对原始的和现有已改进的并行化Apriori算法进行研究,针对已改进的MRARM算法存在处理海量多维数据效率低下的不足,提出了一种基于Hadoop的多维关联规则算法—MDApriori算法。改进的算法不仅克服了传统Apriori算法需要多次重复扫描数据库的瓶颈,而且通过一次性生成所有k-候选项集并作为全局变量,大大降低了生成k-候选项集的时间开销,从而提高了算法效率。3)为了进一步得到直观概括和便于用户使用的关联规则,对得到的关联结果进行了聚类分析,提出了基于属性信息熵的并行K-means算法—PK-meansAIE算法。该算法不仅可以对大量的关联规则进行很好的总结归类,而且避免了由于初始聚类中心选取不合理带来局部最优解和聚类结果波动性大的问题。最后,在局域网内,构建了Hadoop分布式平台,结合桥梁监测数据对所改进的MDApriori算法和PK-meansAIE算法的扩展性、加速比和标准效率进行对比分析。实验结果显示,改进的算法在实现传统数据挖掘算法目标的基础上,具有较好的扩展性和并行处理优势。
其他文献
双向斜盘式压缩机是汽车空调系统中广泛使用的一种压缩机。在研发新产品试制样机过程中,活塞中部台阶处经常断裂。针对这一问题,本文根据双向斜盘式压缩机活塞的结构与工作过
本报北京10月26日电(记者王治国) 今天上午,最高人民检察院分别召开全体党员干部大会和党组会,传达学习党的十九大精神,对检察机关学习宣传贯彻工作作出安排。最高人民检察院党组
报纸
<正> 春秋时期的相马大师伯乐绝对没有预料到,两千多年后他仍然名噪一时。领导干部要向他学习,像他相马一样去发现人才。于是,当代“伯乐”们责无旁贷地相起马来。他们相中的
期刊
本研究从高等教育自学考试发展面临的现状入手,通过华南理工大学自学考试网络助学的实践探索,提出要改革自学考试人才培养模式,重视学习过程与综合能力的培养,要重视网络资源
英语是初中阶段的一门重要学科。初中英语不仅要教会学生英语知识,更要培养学生对英语的兴趣,提高学生的英语学习能力。为了发挥初中英语课堂教学的重要作用,必须充分利用有
自学考试制度自1981年建立至今,已走过30年的发展历程。她在作出卓越历史贡献的同时,也面临着越来越多的问题与论争。"以学历教育为主体"、"以考试为手段"的运行模式在适应新
细根(直径≤2 mm)作为树木吸收水分和养分的主要器官,在森林生态系统的碳分配和养分循环中具有重要作用。随着全球碳循环研究的不断深入,作为森林生态系统中土壤碳的主要来源
随着市场经济的发展,对于面临严峻资金瓶颈的创新型中小企业而言,天使投资无疑对其培育与发展起到至关重要的作用。对于天使投资的保护,也是促进该行业良性发展的必然要求。
征地与拆迁等征收问题是我国最为突出的社会问题之一。我国宪法第13条规定,"国家为了公共利益的需要,可以依照法律规定对公民的私有财产实行政收或者征用并给予补偿。"本文旨
<正>当归为中药中载誉颇高的要药,有“妇科血病圣药”之称,具有补血、活血、调经止痛、润肠通便之功效。始载于《神农本草经》[1],列为中品,但未见炮制方法。在现有文献中,南
会议