处理海量数据的聚类算法关键技术研究

来源 :复旦大学 | 被引量 : 0次 | 上传用户:liangjb82
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
该文主要内容如下:1)针对大多数聚类算法只根据一个固定的原则来识别簇,因而往往只能处理某种特定的数据集合,而对其它数据集合的处理则效果不佳的缺点,提出了综合考虑距离和密度进行相似性判定的Hybrid聚类算法.由于考虑了多种尺度,算法能够准确地识别各种形状的簇.另外,算法利用定义的小方格和密度参数可以自动消除噪声,识别离群点.此外,通过取样和小方格索引技术,Hybrid比之传统的聚合聚类算法,在保持聚类质量的同时大大节省了聚类的时间,具有良好的伸缩性.2)现有的聚类研究侧重于提高聚类分析的效果和性能,但是这些聚类算法多数都需要指定一些参数,作为聚类分析过程结束的依据.3)聚类分析要处理的对象通常是数据库中的数据,因此算法必须能够高效地处理存在于数据库系统或者数据仓库中的数据;为了使聚类算法具有可伸缩性和实用性,文章进一步提出了SACT算法,SACT算法在MACT的基础上,通过分区-对每个分区构造聚类树-合并聚类树的方法突破内存的限制,在保持聚类质量的同时,提高了算法的可伸缩性.
其他文献
在internet上存在很多检索服务,如中国期刊网、Ei、SDOS、IEL(IEEE)、Web of Science(ISI)等.这些检索服务都包含丰富的信息,检索者为了获得需要的资料,往往不得不一一访问这些
该文首先描述了网络化教室的体系结构,包括其软硬件组成、网络通信协议,及基于网络化教室采用的几种教学模式,即授课模式、自学模式、练习模式和讨论模式.在计算机网络上实现
该文主要研究了DiffServ下的准入控制方法.该文首先讲述了自相似网络业务的时间序列分析方法,介绍了自相似性的定义和性质以及FARIMA模型的定义.并且,在天津市自然科学基金的
该文分析了Internet信息资源的特点及其存在的问题,引入了作为Internet信息资源组织和检索方式的虚拟图书馆概念,在此基础上提出了知识类这一作为虚拟图书馆构建模块的工具.I
冷冲模是机械生产行业的重要工艺设备,而模具的设计是一个很繁杂的检索和绘图过程,采取计算机辅助技术可以加速这一过程,产生良好的经济效益。本文首先以建立面向具体领域的三维
作为替代、修复人体硬组织的生物材料,骨修复材料广泛应用。当人体发生意外时,要想找到合适的骨修复材料,必须了解骨组织本身的的材料性质,以及对骨机械性能更好的理解。本论文主
在基于内容的图像检索技术中,颜色、纹理及形状是应用最广泛的图像特征,本文主要围绕图像纹理特征提取方法展开研究,具体地说,就是研究如何有效地利用纹理谱来描述图像纹理特
该文的主要工作:1.在深入调研了嵌入式系统及其设计方法的基础上,总结了嵌入式系统软硬件协同设计方法中软硬件分配问题的发展历史和现状,阐述了软硬件功能分配的未来研究方向
在Internet时代,在世界日渐变小、信息交流和资源共享的需要日渐增强的时代,智能建筑也迫切需要冲破“信息孤岛”,与大厦外更广阔更开放的世界获得交流和沟通.这需要Inernet
随着移动互联网向多媒体信息应用方向发展,再加上移动终端处理芯片正朝着高效、低功耗、小体积方向发展,移动平台上也增加了更多的多媒体业务功能需求。在处理公共场所发生意