论文部分内容阅读
伴随着大数据时代的到来,不仅数据规模变得庞大,数据种类变得多样化,数据维度也在不断增长。从海量、多类型、多维度的混合数据中挖掘出有价值的信息是信息化社会发展的趋势。但是在海量、多类型、多维度数据基础之上采用传统的机器学习算法已经不能满足在有限的时间内完成要解决任务的要求。因此,必须寻求新的方法来解决此问题。目前,基于云计算的海量数据挖掘技术,已得到工业界和学术界的普遍认可。基于Apache软件开源组织Hadoop云计算平台的数据挖掘技术也成为了工业界和学术界共同关心的热点技术之一。本文在研究数据挖掘理论和Hadoop分布式技术基础之上,利用Hadoop提供的MapReduce分布式计算模型,以分类型和数值型混合多维数据为基础,以关联规则和聚类分析为研究对象,实现了基于Hadoop云计算平台的数据挖掘算法研究,主要完成了以下几方面的工作:1)针对分类型和数值型混合多维数据,提出了一种基于Hadoop的数据预处理架构,实现了数据预处理方法和整体数据处理流程。2)通过对原始的和现有已改进的并行化Apriori算法进行研究,针对已改进的MRARM算法存在处理海量多维数据效率低下的不足,提出了一种基于Hadoop的多维关联规则算法—MDApriori算法。改进的算法不仅克服了传统Apriori算法需要多次重复扫描数据库的瓶颈,而且通过一次性生成所有k-候选项集并作为全局变量,大大降低了生成k-候选项集的时间开销,从而提高了算法效率。3)为了进一步得到直观概括和便于用户使用的关联规则,对得到的关联结果进行了聚类分析,提出了基于属性信息熵的并行K-means算法—PK-meansAIE算法。该算法不仅可以对大量的关联规则进行很好的总结归类,而且避免了由于初始聚类中心选取不合理带来局部最优解和聚类结果波动性大的问题。最后,在局域网内,构建了Hadoop分布式平台,结合桥梁监测数据对所改进的MDApriori算法和PK-meansAIE算法的扩展性、加速比和标准效率进行对比分析。实验结果显示,改进的算法在实现传统数据挖掘算法目标的基础上,具有较好的扩展性和并行处理优势。