基于改进进化算法的高维数据聚类研究

来源 :河北工业大学 | 被引量 : 0次 | 上传用户:tiger_0003
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前已进入大数据时代,我们获取的数据变得越来越复杂,不仅面向的方面很多,数据的维度也越来越大。比如,各种类型的交易数据、基因表达数据、WEB使用数据等,它们的维度能够达到成百上千,甚至更大。聚类分析是数据挖掘一种有效手段,受维度灾难和数据稀疏性的影响,高维数据聚类给当前的聚类算法带来了巨大的挑战。一般来说,高维空间的簇结构往往存在于子空间而非整个空间,在现有研究的各类子空间聚类方法中,软子空间聚类是一个重要主题。针对现有的软子空间聚类算法都是对一个目标函数进行优化,在聚类过程中易陷入局部最优,依赖于初始聚类中心等问题,本文首先对多目标进化算法进行了改进,然后建立了高维数据聚类的多目标优化模型,以改进的进化算法为优化框架,提出了基于多目标进化算法的软子空间聚类算法,提高了聚类结果的稳定性和聚类效果,同时克服预先输入聚类个数的缺陷。论文的创新之处以及主要工作为:(1)提出了一种改进的进化算法GLEA。为了提高多目标进化算法的全局寻优能力和大规模决策变量对优化效果的影响,本文基于多目标进化算法LMEA框架,主要在两个方面进行了改进,第一,通过随机采样与非支配排序,优化了变量分解过程。第二,在优化过程中,采用levy变异策略产生子代,提高算法的全局寻优能力。通过以上两点的改进,该算法与目前较先进的多目标进化算法对比,能够更好的保持解的多样性与收敛性。(2)提出了基于GLEA的多目标软子空间聚类算法GSSC。建立与类内距离,类间距离、标准互信息(NMI)有关的三个目标函数,以改进的进化算法GLEA为优化框架,与软子空间聚类算法融合,解决高维数据的聚类问题。在人工数据集、UCI数据集、基因表达数据集上进行实验,以兰德指数(RI)、调整兰德指数(ARI)、标准互信息作为评价指标。通过与其他算法比较,证明该算法可以在高维数据上得到较优的聚类效果且不必预先确定聚类数目。
其他文献
医院公共科研平台是实施科研活动和研究生培养的主要场所,整合公共实验研究平台资源,完善资源共享服务机制,是提升研究生培养水平的重要助力。本文拟从医院公共科研平台资源
绩效审计在一个国家或地区的重视与运用程度.是衡量该国家或地区审计发展水平及审计是否具有活力的重要标志之一。当前,政府绩效审计正成为我国审计理论界和实务界关注的焦点。
斑马鱼(Danio rerio)是研究脊椎动物发育生物学的重要模式物种之一。本文对斑马鱼染色体多重带显带技术进行了详细的探讨;通过染色体描绘技术对斑马鱼染色体与人类17号染色体
一九八八以来,我国的国有资产平均每年以18%的速度递增,但也毋庸讳言,国有资产流失也一直是困扰国有经济的一个不容忽视的问题,因此,如何防止国有资产流失,保证国有资产的保值