论文部分内容阅读
数据挖掘是近年来发展起来的新技术,通过数据挖掘,人们可以将知识发现的研究成果应用于实际数据处理中,为科学决策提供支持.目前数据挖掘逐渐发展成为一个多学科领域,涉及到多方面的技术,特别是和计算智能方法的结合越来越紧密.本文首先介绍了数据挖掘的基本概念、内容、功能、常用技术及未来的发展方向.接着介绍了关联分析的基本概念、分类及经典的Apriori<[1]>算法思想.关联规则算法是数据挖掘中的核心技术之一,在整个数据挖掘过程中有着非常重要的作用.接着,本文从工程角度出发,设计并实现了一个基于分布式结构的数据挖掘系统.本文从系统的体系结构、功能设计、模块划分、实现技术等方面进行了详细的分析和讨论.该系统在J2EE框架下,支持EJB技术标准,为数据分析员提供了一个基于c/s模式的数据挖掘平台.实验小组采用了组件化的思想,设计了这个数据挖掘系统平台,提供给数据挖掘技术的研究者一个研究用的实验平台,只要遵循我们的数据模型接口和挖掘模型接口,新的数据挖掘算法可以很容易地集成到系统中来.同时,我们的平台又是一个具有实际应用价值、可以与数据挖掘应用紧密结合的、便于升级和移植的挖掘系统框架.将数据挖掘系统实现技术与最新的EJB标准结合起来,采用组件技术设计,使得系统具有良好的开放性和可扩展性.系统基于J2EE技术设计,可以大大减少系统开发的工作量同时具有良好的健壮性.然后,提出了一种基于约束项的关联关系的挖掘新算法AprioriTID,此算法主要是改进原来的算法没有基础项集的选择这一缺点,对整个挖掘的基础项集进行有针对性的筛选.本文从这个算法的产生原由、流程、实现过程、实现的意义以及需要改进的地方等多个方面进行描述.对于这个算法我用EJB进行封装,并发布到Jboss服务器上,实现了整个算法分布式调度.这个算法还有很多的不足,我从理论和实际的应用方面对其进行改进.最后,本文总结了课题的主要研究工作.