分布式环境下聚类分析新方法的研究

被引量 : 0次 | 上传用户：abing206

【摘要】

：

随着计算机和存储技术的快速发展，人们已经积累了大量的历史数据，迫切需要将这些历史数据转化为知识。聚类分析，基于“物以类聚”的朴素思想，将物理或抽象对象集合划分为由相似对

【作者】

：

李成安

【发表日期】

：

2006年期

【关键词】

：

数据挖掘聚类分析分布式计算分布式聚类集成学习移动代理层次优化协同时间序列

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着计算机和存储技术的快速发展，人们已经积累了大量的历史数据，迫切需要将这些历史数据转化为知识。聚类分析，基于“物以类聚”的朴素思想，将物理或抽象对象集合划分为由相似对象组成的多个类，在数据挖掘领域得到了广泛的研究，并成功应用于各个领域。近年来，数据库规模持续增长，分布范围日益广泛，而大多数现有聚类分析方法需要一次性将所有数据载入内存，耗费大量计算时间，无法满足海量、分布式数据环境下的知识提取需要，因此分布式环境下聚类分析方法的研究是当今聚类分析领域富有挑战性的前沿课题。本论文致力于这一研究课题，以大规模、分布存储的数据集为研究对象，采用机器学习、人工智能和层次优化等技术和分布式计算相结合的方法，探索分布式环境下新的聚类技术，为高效、合理利用分布的、大规模数据提供理论和技术基础。本文的主要研究内容和创新点包括以下几个方面：1．对分布式环境下的聚类分析，从产生背景、算法研究、应用研究等方面进行了较为全面系统的分析和总结。2．针对分布式聚类的易实现性问题，利用弱聚类算法的易实现性，提出了一种基于Boosting技术的分布式聚类算法DBCA。DBCA算法在每次迭代中，将不同子数据库基于弱聚类算法建立的局部模型组装生成全局模型，各子数据库基于全局模型对其数据进行划分，再根据划分的质量确定下一次迭代的采样概率，通过加权投票集成前些次迭代的划分，并将最后一次集成得到的划分作为最后的聚类结果。分析表明DBCA算法具有可并行计算、良好的伸缩性和通讯代价小等特点，不仅有助于科学家对聚类分析的深入研究。还有助于普通工程技术人员利用分布式聚类技术来解决真实世界中的问题。实验表明DBCA算法可得到与集中数据库相似的结果。3．针对分布式聚类的集成伸缩性问题，根据数据库的网络分布、网络带宽等特点，利用层次设计思想，对OIKI DDM模型进行扩展，提出了基于移动代理的层次优化集成挖掘模型—HOIKI DDM模型，并相应提出一种分布式聚类算法HOIKIDC。实验和分析表明，HOIKIDC对于分布式环境具有更好的伸缩性，实现更加灵活，效率更高，并可有效降低通讯代价，特别适合于大规模异构分布式数据聚类问题。4．对分布式聚类的集成有效性问题进行研究。首先提出了集成有效性概念和局部结果不一致性概念，分析了局部结果不一致性的产生原因，提出了协同算法来降低这种不一致性，并相应地提出了一种分布式聚类算法CDCA，通过局部站点之间的信息交互和协同使全局聚类质量得到改善。实验结果表明，CDCA算法使结果集成更为有效。5．针对应用领域中的时间序列存在数据规模大且分布存储的特点，提出了一种分布式模糊短时间序列聚类算法DFSTS来分析这些时间序列的形状相似性从而更好的揭示序列的结构，并分析了该算法的收敛性。仿真结果表明DFSTS算法具有良好的伸缩性，具有与集中数据集同样的聚类质量，计算效率更高。6．以国家863计划项目为背景，以冶金生产过程质量预测与操作优化为研究对象，对分布式聚类技术在冶金工业中的应用进行了研究。首先设计了一个分布式数据挖掘系统原型。针对大规模、分布存储的连续退火生产过程数据，应用本文提出的分布式聚类算法完成了两个挖掘任务：1)带钢断带建模与预报；2)离群检测。实验结果表明，该方法对于连续退火过程数据的分析是有效的，对大规模冶金工业生产过程数据分析具有十分广阔的应用前景。

其他文献

“健身丹”对脊髓型颈椎病神经细胞凋亡相关基因表达影响的研究

目的:通过中药“健身丹”对脊髓型颈椎病神经细胞凋亡相关基因表达影响的研究,从分子生物学角度探讨中医药防治脊髓型颈椎病的机理。同时为开发新药,造福广大患者,最终解决广

学位

脊髓型颈椎病动物模型健身丹细胞凋亡Bcl-2mRNA

CRT显示器的辐射强度测定及其对人体健康影响的调查分析

近年来,随着我国经济社会的不断发展和进步,各种各样的日常电子产品,尤其是计算机已经深入每个普通家庭和个人,这些产品给人们生产、生活带来方便的同时也带来了潜在的问题和

学位

CRT显示器电磁辐射流行病学调查疾病预防

超声乳化术在原发性青光眼治疗中的应用

目的分析并探讨超声乳化术在原发性青光眼治疗中的应用效果和临床价值。方法选取2012年1月~2014年12月我院收治的100例原发性青光眼患者作为研究对象,采取双盲法将患者分为对

期刊

超声乳化术小梁切除术原发性青光眼

网络隐私权的保护

隐私权伴随着生产力的发展和人类对自身的尊严、权利、价值的认识而产生的。随着网络与信息技术的飞速发展,隐私权逐渐有了新的发展——网络隐私权。网络隐私权是指公民在网

学位

网络隐私权个人数据保护模式立法保护行业保护

论我国股权分置改革的法律规制

在我国A股市场上，长期以来存在股权分置的状态，股权分置严重阻碍了我国股市的正常发展。2005年5月以来我国A股市场开始实行股权分置改革，而规则的缺失、制度的缺陷又会改变改革

学位

股权分置改革法律规制

房地产企业税务管理战略研究

随着我国经济市场化程度的提高及房地产行业日益成熟,整个房地产行业的竞争目前非常激烈。提高企业竞争力,增加整体效益,是每个企业追求的目标,而税收在企业的各项活动中扮演

学位

房地产税务管理战略风险控制

“选择议论的角度”教学实录

学情分析写议论文,必须有理性思维作为支撑。议论文含有很大的辩证思维成分,写好议论文是需要用哲学思想来分析、判断、归纳和逻辑推理的,最好先掌握一些常用的因果、条件、

期刊

教学实录最佳年龄勤能补拙横看成岭侧成峰齐宣王对比式罗得岛

戏曲现代戏向何处去

<正>戏曲是中华民族传统文化高度凝练的产物,也是中国艺术精神最具有典型意义的代表。数百年来,戏曲堪称雅俗共赏,既广泛流行于山野民间,又曾受到皇家宫廷的热忱追捧,生发于

期刊

戏曲现代戏戏曲剧种戏曲表演

针刺促进面部除皱术缝针褶皱的修复一例

面部除皱术又称面部提升术,是整形外科中最常见的手术之一,能起到对抗面部老化的作用。面部除皱术虽能快速实现面部皱纹的消除,但在术后会出现皮肤缝针褶皱的问题,一般要经过

期刊

面部除皱术术后褶皱修复针刺疗法

胃癌患者家庭照顾者预期性悲伤现状及其与照顾负担的关系研究

目的:通过问卷调查,了解胃癌患者家庭照顾者预期性悲伤与照顾负担的现状,探讨胃癌患者家庭照顾者预期性悲伤与照顾负担之间的关系,分析家庭照顾者预期性悲伤的主要影响因素。为家庭照顾者实施心理护理干预,缓解预期性悲伤程度提供理论依据。方法:采用便利抽样法,于2018年8月至2019年1月期间,对江西省两所三级甲等医院符合纳入标准的216例胃癌患者家庭照顾者进行问卷调查,调查工具包括一般资料情况调查表、预期

学位

胃癌家庭照顾者预期性悲伤照顾负担

分布式环境下聚类分析新方法的研究

与本文相关的学术论文