高伸缩性聚类分析方法研究

被引量 : 0次 | 上传用户:wkp418907
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类问题一直是模式识别领域的热点课题,其应用领域广泛,包括统计学、图像处理、医疗诊断、信息检索、生物学以及机器学习等。近年来,很多聚类方法纷纷涌现。这些方法大多受到自身算法的伸缩性限制,在特定数据规模的数据集上表现出优良的性能,但在超出其规定规模的数据集上往往收效甚微,甚至无法运行。随着信息采集与存储技术的飞速发展,数据的多样性越发突出,因此,对于高伸缩性的聚类方法的探索越发成为关注的焦点。本文主要针对聚类算法的伸缩性以及一些聚类算法存在的高昂计算复杂度和巨大内存需求而难以应用于大规模数据集的处理中的问题展开研究和讨论。在此过程中,本文的主要创新体现在以下几方面:(1)许多经典的聚类算法在小数据规模的数据聚类任务中取得了非常优秀的效果,但由于其伸缩能力不强,使得大多数算法在大规模数据的聚类任务中很难胜任或无法完成聚类分析的任务。针对探索高伸缩性聚类方法的问题,使得算法能够适应大幅度的数据规模变化,本文以化整为零的处理思想为基础,对于数据集先进行切分后划分的处理方式进行了深入的研究。提出一种基于这种处理方式的聚类方法—基于数据切分与划分的聚类方法。该方法处理数据不须将数据一次读入主存,可以大幅度的降低了算法对硬件资源的需求,相比于传统迭代产生的质心不易陷入局部最优。(2)DP是一种伸缩性较强的聚类方法,在小数据集合和大数据集合的聚类任务中都表现出了优异的聚类性能,但对于数据规模过大的情况下,其局部特征样本集过大,超出主存要求,仍然存在不足。针对这种情况,本文对于DP理论进行深入分析后提出了逐级压缩的思想,并对DP方法进行了改进,提出了一种基于均值径向压缩的聚类方法(Means Radial Compression,MRC),相比于DP方法,均值径向压缩方法MRC具有更好的伸缩性能,并且其优良的时间复杂度O(n)也使得其应用范围更广。(3)提出一种基于最小距离谱的数据特征聚类特性的可视化分析方法(MinDS)。通常情况下,用于参与聚类分析的数据是经过数据表示后产生的数据特征,应具有内在的联系,使其呈现出分组特性,聚类分析则指按照某种相似性测度找出这种数据分组。因此,数据表示过程、数据特征的选择将直接影响最终聚类结果。MinDS首先定义了最小距离谱模型,通过对最小距离谱特征分析,可以将多维数据间数据关系映射到二维数据空间中,对于直观的评价数据特征聚类特性,聚类方法失效原因等都获得了很好的效果。同时MinDS方法也可用于处理噪声,识别孤立点,寻求数据类别等方面。
其他文献
目的:全面整理和研究阎洪臣教授的主要学术思想。方法:通过跟师随诊、实时采集病历、整理病历、研读阎洪臣教授论文著作文稿、以及拜访请教等方式,接受阎洪臣教授言传身教,尽量掌
当下越来越多的女性管理者活跃在企业,成为社会主义市场经济中的一道别样风景线。显然这不是女性参与社会管理的最早“盛景”,当然也不是最终的情形,那缘何会在此时有如此一
互联网的发展正在一点一滴地改变着人们的生活。电子商务开始慢慢被大众接受。当人们说起网络购物时,我们很容易将便捷、时尚与之联系起来。而微博,作为这几年新兴发展起来的
随着工厂近几年造船规模的不断扩大,造船过程中的一些技术、工艺、施工流程中的一些弊端逐渐显现,尤其是在船舶轴系安装的工艺上更为突出。由于前些年所造船的吨位较小,在轴系安
<正>在这里,我们提出不同消费层次并以这种层次去确立食品包装设计的不同定位及其设计方式,这是依据市场竞争的前提而不得不这样考虑的一种选择。因为设计人员是服务于产品的
时下21世纪我国设计艺术学科发展迅猛,建筑设计与服装同作为视觉艺术表达形式的一种相互影响。在佛教文化传播过程中,建筑造像艺术深深影响着魏晋服饰的设计风格和走势,可见
世界经济的快速发展,尤其是发展中国家以追求经济增长为单一目标,主要依赖资源的大量投入,其粗放型的经济增长方式,直接导致了经济效益差、资源利用效率低下、环境污染严重等问题
同所有的干涉仪一样,光纤陀螺对温度敏感,由于其基本的互易结构,即使对较低程度温度,也比大部分干涉仪敏感。在光纤陀螺中,沿光纤敏感环温度的不均匀变化会在输出信号中引入一个漂
以课题研究为载体,以跨校的教师研修共同体为主要形式,以教师的共同发展为目标,通过开展实践性的教育教学研究活动,为教师实现专业引领、同伴互助和自我反思搭建一个共同成长