SOA架构下分布式聚类算法的研究与设计

来源 :武汉理工大学 | 被引量 : 8次 | 上传用户：mosalin

【摘要】

：

随着信息技术的快速发展,人们可以通过网络等方式便捷地获取大量信息。但是,随着信息的大规模化和复杂化,人们提取有价值信息的途径越来越困难。数据挖掘为人们从海量信息中

【作者】

：

谢金辉

【机构】

：

武汉理工大学

【出处】

：

武汉理工大学

【发表日期】

：

2009年01期

【关键词】

：

分布式数据挖掘分布式聚类 SOA Web Services DBDC SDBDC

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着信息技术的快速发展,人们可以通过网络等方式便捷地获取大量信息。但是,随着信息的大规模化和复杂化,人们提取有价值信息的途径越来越困难。数据挖掘为人们从海量信息中提取潜藏有用的信息提供了方便的手段。聚类作为数据挖掘的基本方法广泛地应用于数据分析、模式识别、图像处理等领域。随着存储技术的迅猛发展,现如今大规模数据都以分布式的形式存放。对大规模分布式数据进行聚类分析都采用分布式聚类方法。SOA是一种面向服务的体系架构,它为分布式聚类提供了一种新的架构。SOA架构下的分布式聚类算法能够高效地实现分布式数据的聚类分析。分布式环境下的聚类分析方法是当今聚类分析领域研究的热门课题。因此,本文致力于这一课题,以分布式数据集为研究对象,采用SOA方法,实现分布式聚类分析的过程。本文的主要研究内容包括以下几个方面:(1)本文介绍了SOA架构下分布式聚类算法的研究背景、国内外研究现状、研究的目的和意义。同时分别从SOA架构和分布式数据挖掘这两个方面阐述了本课题研究的技术基础。(2)本文以DBDC算法为对象,研究了分布式聚类算法的具体过程,包括局部挖掘和全局挖掘。其中,局部挖掘为整个算法的基础,它执行结果的质量好坏直接影响到最终的分布式聚类结果。局部挖掘主要包括局部DBSCAN聚类、代表点选择和局部调整三个过程。SDBDC算法是DBDC的改进扩展算法,它针对DBDC的缺陷,对局部挖掘和全局挖掘都做了改进。但是,SDBDC在执行效率上也存在不足,因此,本文结合SDBDC算法和DBDC算法的优点,改进了DBDC局部挖掘的代表点选择过程,以达到在保证DBDC聚类质量的情况下提高DBDC聚类效率的目的。(3)为了实现聚类算法的分布式执行,本文结合SOA架构和Web Services技术,将分布式聚类算法设计成Web服务的形式,提出了SOA的分布式聚类算法Web服务模型。该服务模型主要包括两组Web服务:局部挖掘服务和全局挖掘服务。局部挖掘服务又包括局部DBSCAN聚类服务、代表点选择服务和局部调整服务;全局挖掘服务主要包含全局DBSCAN聚类服务。(4)针对SOA的分布式聚类Web服务模型,本课题首先利用Weka实现分布式聚类算法,然后用Axis将其发布成服务,最后在Triana环境下将分布式聚类Web服务组合成工作流的形式,实现了分布式聚类分析的过程。本文研究工作的特点在于:①结合DBDC和SDBDC算法的优点,改进了DBDC局部挖掘的代表点选择过程,提出了一种改进的DBDC算法。②将SOA架构与分布式聚类算法相结合,提出了一种SOA架构下的分布式聚类Web服务模型,并实现了基于此模型的原型系统,同时用Triana测试了该系统,结果表明在带宽较大的情况下,采用本文提出的SOA架构下分布式聚类算法对大规模数据进行聚类是可行并且有效的。

其他文献

手持阅读器人机交互体系及关键问题研究

随现代信息科技进步，电子纸显示技术不断改善，电子纸手持阅读器的可用性得到一定程度提升。但在电子纸手持阅读器中还存在很多不足，尤其是人机交互和用户体验方面还有待改善。基

学位

电子纸显示手持阅读器人机交互设计几何建模可展曲面Seeheim模型

面向对象的嵌入式集成开发平台研究与设计

嵌入式产品广泛应用于生产生活中,目前世界上所生产的计算机芯片绝大部分均被应用到了嵌入式系统。不仅越来越多的系统可以通过嵌入式设备来处理,而且被处理的系统范围、复杂

学位

面向对象嵌入式系统集成开发平台交叉编译软件移植

基于数据流的分类算法研究

通信、计算机和网络技术的飞速发展将人类带入信息社会,大量的数据可以用来衡量人们生活的方方面面。这些数据在给人们带来方便的同时也使人类陷入数据的海洋中。数据挖掘就

学位

数据挖掘数据流分类决策树朴素贝叶斯非均匀间隔剪枝

流媒体服务器中实时传输协议的研究和内核化实现

近年来,随着高带宽网络、高速存储设备以及媒体编码压缩技术的迅速发展,使得通过网络提供实时流媒体服务成为可能。流媒体服务器中实时传输协议的实现频繁且集中地进行I/O操

学位

实时传输协议流媒体服务器I/O操作Linux内核模式切换

基于ArcGIS Engine的海洋动目标综合显示系统的研究与开发

地理信息系统(GIS)是在计算机软硬件的支持下,运用系统工程和信息科学的理论与方法,综合地、动态地获取、存储和分析地理环境信息的空间信息系统。它是用于回答地理学问题的

学位

地理信息系统组件ArcGIS Engine动态显示技术

基于OPNET的无线Mesh路由协议分析与仿真

无线mesh网络作为一种新型的无线通信网络,由于其可扩展、灵活性等方面的优势,获得了越来越广泛的应用。但是,无线mesh网络的发展还处于初期阶段,在安全、路由和性能等技术方

学位

无线mesh网络路由协议OPNET网络仿真

基于遗传退火的生物信息学多序列比对算法研究

随着人类基因组计划(HGP)等项目的实施,生物学及相关数据的积累速度呈爆炸性增长,生物信息学这个融合了生命科学、信息科学等众多相关学科的边缘学科,为“海量”生物信息的处

学位

生物信息学多序列比对遗传算法“早熟”现象模拟退火算法

P2P覆盖网流媒体交互技术研究与设计

随着Internet的飞速发展,用户对流媒体的需求日益增大。目前,对P2P流媒体直播系统的研究已趋于成熟,对点播系统的研究尚处于起步阶段。本文在介绍了流媒体的相关技术之后,对

学位

P2P视频点播Gossip束层P2PStrmsim

端到端网络性能测量系统的研究

当前网络的规模和复杂性不断增加，Internet服务提供商和用户都希望了解自己提供或正在使用的网络的性能。端到端的网络性能测量技术为网络的管理，故障的诊断，设备的部署，应用的开

学位

端到端网络网络性能往返时延可用带宽测量网络管理故障诊断TCP协议

无线传感网络可靠定位问题的研究

对于无线传感网络应用系统来说,节点的可靠定位十分重要,它是定位应用系统正常运行的基础。在本文中,我们从节点定位的安全性与稳定性两方面来研究实用应用系统中的可靠定位

学位

无线传感网络可靠定位安全定位伪装攻击稳定定位

SOA架构下分布式聚类算法的研究与设计

与本文相关的学术论文