论文部分内容阅读
随着信息技术的快速发展,人们可以通过网络等方式便捷地获取大量信息。但是,随着信息的大规模化和复杂化,人们提取有价值信息的途径越来越困难。数据挖掘为人们从海量信息中提取潜藏有用的信息提供了方便的手段。聚类作为数据挖掘的基本方法广泛地应用于数据分析、模式识别、图像处理等领域。随着存储技术的迅猛发展,现如今大规模数据都以分布式的形式存放。对大规模分布式数据进行聚类分析都采用分布式聚类方法。SOA是一种面向服务的体系架构,它为分布式聚类提供了一种新的架构。SOA架构下的分布式聚类算法能够高效地实现分布式数据的聚类分析。分布式环境下的聚类分析方法是当今聚类分析领域研究的热门课题。因此,本文致力于这一课题,以分布式数据集为研究对象,采用SOA方法,实现分布式聚类分析的过程。本文的主要研究内容包括以下几个方面:(1)本文介绍了SOA架构下分布式聚类算法的研究背景、国内外研究现状、研究的目的和意义。同时分别从SOA架构和分布式数据挖掘这两个方面阐述了本课题研究的技术基础。(2)本文以DBDC算法为对象,研究了分布式聚类算法的具体过程,包括局部挖掘和全局挖掘。其中,局部挖掘为整个算法的基础,它执行结果的质量好坏直接影响到最终的分布式聚类结果。局部挖掘主要包括局部DBSCAN聚类、代表点选择和局部调整三个过程。SDBDC算法是DBDC的改进扩展算法,它针对DBDC的缺陷,对局部挖掘和全局挖掘都做了改进。但是,SDBDC在执行效率上也存在不足,因此,本文结合SDBDC算法和DBDC算法的优点,改进了DBDC局部挖掘的代表点选择过程,以达到在保证DBDC聚类质量的情况下提高DBDC聚类效率的目的。(3)为了实现聚类算法的分布式执行,本文结合SOA架构和Web Services技术,将分布式聚类算法设计成Web服务的形式,提出了SOA的分布式聚类算法Web服务模型。该服务模型主要包括两组Web服务:局部挖掘服务和全局挖掘服务。局部挖掘服务又包括局部DBSCAN聚类服务、代表点选择服务和局部调整服务;全局挖掘服务主要包含全局DBSCAN聚类服务。(4)针对SOA的分布式聚类Web服务模型,本课题首先利用Weka实现分布式聚类算法,然后用Axis将其发布成服务,最后在Triana环境下将分布式聚类Web服务组合成工作流的形式,实现了分布式聚类分析的过程。本文研究工作的特点在于:①结合DBDC和SDBDC算法的优点,改进了DBDC局部挖掘的代表点选择过程,提出了一种改进的DBDC算法。②将SOA架构与分布式聚类算法相结合,提出了一种SOA架构下的分布式聚类Web服务模型,并实现了基于此模型的原型系统,同时用Triana测试了该系统,结果表明在带宽较大的情况下,采用本文提出的SOA架构下分布式聚类算法对大规模数据进行聚类是可行并且有效的。