论文部分内容阅读
随着计算机网络的日益发展,分布式系统的应用越来越多,应用者关注的是如何从这些分布式系统的海量数据中挖掘出有效的信息。面对分布式系统中的种种困难,如数据源的分布存储、数据源异构、数据量大、网络带宽小等,现有的集中式数据挖掘方案很难有效地解决分布式数据挖掘中遇到的问题。分布式数据挖掘要求系统具有如下特点:1)分布式处理,避免将逻辑上或物理上分布存储的数据集中于同一数据仓库,减少对网络带宽的占用;2)并行处理,系统应能够对不同分布的数据进行并行挖掘,尽量避免频繁访问异地存储的数据;3)兼容性强,系统能够兼容分布式系统中不同类型的数据源类型。针对这些特点,多Agent系统以其灵活的管理方式、高效的并行处理能力,成为了解决分布式数据挖掘的一个有效的方案。使用多Agent系统进行分布式数据挖掘受到越来越多研究者的关注。本文在介绍Agent技术和数据挖掘相关理论的基础上,经过研究近年有关多Agent系统和分布式数据挖掘的成果,提出了一种新型基于多Agent技术的分布式数据挖掘系统模型(A New Multi-Agent System for Distributed Data Mining简称NMAS-DDM)。该模型系统用Agent建立了一个分层管理的结构,以满足分布式数据挖掘对分布处理和兼容性的要求,同时,系统又采用基于知识的消息传递方式,以避免对网络带宽的过多占用。对系统中任务的分派和调度做了进一步的研究,提出了基于任务量和维度的任务分派方式,以及相应的任务调度方式。在此基础上,为NMAS-DDM制定了消息传递方式和报文格式,以求在最小程度下占用网络带宽,而又能满足系统的需要。最后,针对系统的结构特点,给出了用于NMAS-DDM的分布式挖掘蚁群算法,进一步体现使用多Agent系统进行分布式数据挖掘时灵活、高效的特点。