面向高维数据的自适应性多目标聚类集成选择

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:hecheng555
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网+时代的到来,数据的维度和数量呈爆炸式增长,针对高维数据的聚类分析问题愈发重要。聚类分析的任务的目标就是把数据根据相似性划分为多个簇,在图像分割、信息检索等领域中有着重要地位。然而由于聚簇结构先验知识的缺失,现有聚类算法难以同时处理所有类型的数据。聚类集成算法通过生成一系列具有多样性的聚类结果,并利用一致性函数进行融合来解决上述问题。聚类集成选择能有效地剔除低质量的集成成员,提升聚类集成的质量。传统聚类集成选择算法同时结合聚类集成的准确性和多样性,但却无法衡量二者重要性,其根本在于缺乏对数据集属性的量化分析。本文提出四种样本稳定性指标以及一种融合指标对数据样本进行划分,并根据数据集稳定性指标来计算样本子集大小,在稳定样本集合上评估聚类集成的准确性以及在不稳定样本集合上评估多样性,提升聚类集成选择的自适应性与泛化能力。为对目标函数进行优化,传统聚类集成选择算法采用前向搜索等策略来搜寻最优聚类结果子集,此类方法时间复杂度低但优化结果质量差。多目标演化算法是解决该问题的有效方法,但利用多目标遗传算法进行聚类集成选择的研究工作甚少。本文提出一种基于进化情况进行方向调整的多目标遗传算法,以聚类集成选择策略为个体,以稳定性部分的准确性和不稳定性部分的多样性作为目标函数进行优化,以每轮迭代中的目标函数改进情况来进行个体筛选以及变异率的衰减,从而搜寻出最佳聚类集成子集并进行集成融合。本文在多种类型的数据集上评测本文算法的性能,结果显示该算法能有效提升聚类分析的准确性以及泛化能力。
其他文献
随着全球国际化经营的进一步深入,钢铁产能过剩,钢铁产品同质化日趋严重,为了打造企业的核心竞争力,钢铁企业越来越重视品牌的塑造与传播,实现品牌差异化。钢铁企业结合自身
简单介绍某工程一期及二期扩建项目的概况,较详细地介绍了二期扩建工程的总降压变电所主要设计以及在变电所设计、设备选型时应注意的若干问题。
农业生态旅游是近年来日渐兴起的旅游项目,农业生态旅游对于提高农民收入,建设社会主义新农村具有重要的作用。可持续的农业生态旅游发展应具备如下特点,文化的持续发展、经
<正>一、对新旧两版教材内容结构的整体分析人教版《九年义务教育六年制小学教科书·数学(第九册)》(简称"旧教材")是根据教育部2000年颁发的《九年义务教育全日制小学数学大
按照"目标导引教学"的基本思路设计"等腰三角形性质"的教学过程,体现目标的导向性和可检测性,体现学生在学习过程中的主体地位,发挥评价在培养学生良好思维品质方面的重要作
相比以往软件所处理的简单数据而言,当前的处理对象早已处于海量和多样化状态。面对增长迅速、种类繁多的医疗大数据,分类处理成为一个重要问题。基于患者住院大数据,分析了
通过拼、剪、猜、证四个活动,在"做"中感悟数学基本思想,积累数学活动经验,经历实践、观察、猜想、证明等腰三角形的性质的过程,初步掌握研究几何图形问题的一般方法,发展合
作为中国的本土宗教,道教的一些经典中有关于中国早期历史发展的叙述。以(太上老君开天经)为代表的道教经典认为,老君开启人类世界,中国早期历史是老君的教化史。这些叙述和正史记
当代大学生的法律素养水平直接影响着我国法治国家现代化建设目标的实现及学生自身综合素质的提升与发展。本文从分析当代大学生的法律素养内涵入手,结合大学生法律素养的现
司法行为行政化违反了司法的构成和运行规律,造成了司法与行政功能上的紊乱。本文从历史文化、近现代的社会基础与当代司法体制分析司法行为行政化在我国形成的原因,并对克服