基于降维的聚类分析算法设计与实现

来源 :北京邮电大学 | 被引量 : 1次 | 上传用户：lingyumhg

【摘要】

：

随着信息技术的发展,现实生活中产生了大量的数据,为了从这些数据中获取有用的信息,数据挖掘技术应运产生。聚类分析作为数据挖掘技术的重要组成部分,在各个领域都得到了广泛

【作者】

：

陈永胜

【出处】

：

北京邮电大学

【发表日期】

：

2016年01期

【关键词】

：

数据挖掘聚类降维

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着信息技术的发展,现实生活中产生了大量的数据,为了从这些数据中获取有用的信息,数据挖掘技术应运产生。聚类分析作为数据挖掘技术的重要组成部分,在各个领域都得到了广泛地应用。由于现实生活中数据集的动态变化以及数据集中数据维数不断增加,传统的聚类分析算法已经无法很好的适应不断增加的数据集的聚类分析。因此,需要提出合理有效的聚类分析算法来适应高维动态数据集的聚类分析。对高维动态数据集进行聚类分析,首先要对高维数据进行降维操作,简化数据处理计算的复杂度,避免维数灾难;然后通过增量聚类的方式对动态变化的数据集进行聚类操作,避免不要的重复迭代过程,提高算法的运行效率。因此,本文分别提出数据降维算法以及增量聚类分析算法来实现对高维动态数据的聚类分析。针对数据维数较大的问题,为减少数据计算量,一般采用数据降维方式对高维数据进行降维。传统的数据降维算法LLE算法采用邻接点构建局部权值矩阵实现数据降维操作,因此LLE算法在降维过程中受噪声数据影响较为严重。同时LLE算法构建局部权值矩阵的过程中只考虑了数据之间欧氏距离而没有考虑数据之间密度关系,使得LLE算法无法适应密度分布不均匀数据集。为了避免LLE算法的缺陷,本文在LLE算法的基础上提出了一种可适应含噪声数据且密度分布不均匀数据集的数据降维算法——DKLLE。DKLLE采用改进的Dijkstra距离考虑数据之间的密度关系,从而可以有效处理密度分布不均匀的数据集,并且采用K-邻居图避免邻接点中噪声数据对降维结果的影响。通过仿真实验证明了 DKLLE算法在处理密度不均匀数据时具有很好的鲁棒性。K-means算法是经典的聚类分析算法。K-means算法根据预先设置数据集中簇的中心点和数据中簇的个数,通过不断迭代的方式更新聚类的结果,直到目标函数收敛输出聚类结果。由于K-means算法对于每个变化的数据都要重新进行迭代,因此K-means算法对于增量数据的聚类分析效率较差,同时在迭代的过程中,容易出现目标函数的局部最优问题。本文提出了一种基于K-means算法的改进聚类分析算法——IK-means。IK-means算法首先将数据进行缓存并将缓存中数据进行采用DKLLE算法进行降维操作,然后针对降维后的数据进行聚类分析。在聚类分析的过程中,IK-means算法无需预先设置簇的个数,而是利用缓存区实现对数据集聚类个数k的动态调整。在迭代的过程中,IK-means算法采用模拟退火算法可以有效的避免算法出现局部最优的问题。通过仿真实验,证明了 IK-means算法可以有效实现对动态高维数据集的聚类,并可以避免局部最优。

其他文献

图像超分辨率复原及其在分类中的应用

高质量高分辨率的图像在如今社会的各个领域都是迫切需求的,为了获得高分辨率的高质量图像,近年来图像超分辨率重建技术有了广泛的研究,图像超分辨技术也达到了一个顶峰,各种

学位

SAR图像超分辨率分类EM算法字典

模糊语言环境下基于双边满意度的专家推荐研究

二十一世纪,知识将逐渐成为全新的、举足轻重的无形资源,有效的知识管理将促进社会组织获得前所未有的绩效提升。知识分为显性知识与隐性知识,作为隐性知识的载体,人也是一种

学位

专家推荐知识分享模糊语言处理

云平台中虚拟机异常检测方法研究

随着云计算技术的不断发展,越来越多的企业和个人将业务系统迁移到云平台上,使得云平台的规模不断增大,给提高云服务可靠性带来了巨大的挑战。虚拟机作为云平台的基础组件,其

学位

云平台异常检测上下文聚类INFLO

基于学术合作数据的合作者推荐

近年来,随着信息技术的不断发展,学术领域中,学术合作网络规模也不断得以壮大和发展。并且,学术合作作为学术领域重要的交流方式,也吸引了大量的学者纷纷参与到学术合作当中

学位

学术合作网络社会计量分析主题聚类研究兴趣动态变化学术影响力

基于DexClassLoader的Android加固保护技术研究

Android系统已经成为移动端操作系统领军者,Android应用也以爆发式的飞速发展。伴随而来的则是隐藏在普通应用中的恶意应用,这些应用可能盗取个人隐私,恶意扣费,暴露账号信息

学位

Android 安全应用加固DexClassLoader防破解

基于内容的视频拷贝检测

随着互联网技术的发展,人们可以随时随地进行视频拍摄并上传,造成了网络视频数据的大规模增长。同时,盗版侵权等违法行为也制约着网络视频的发展。为了快速地对相似性视频进

学位

视频拷贝检测大字典模型快速检索紧凑视频特征深度学习

自然图像去雾算法及其质量评价研究

大范围频发的雾霾天气下,户外场景的能见度显著下降,致使采集的户外图像出现对比度低、细节模糊、色彩暗淡等降质现象,极大限制了依赖户外清晰图像工作的交通监管、智能驾驶

学位

图像去雾雾天图像退化模型场景深度过饱和失真去雾图像质量评价

基于农户视角的福建菌草技术推广绩效评价研究

改革开放以来,我国食(药)用菌产业发展迅速。到目前为止,我国已经成为世界食用菌生产大国,菌业也成为我国农业生产结构中的第六支柱产业。福建省以菌业作为优势特色产业,其食

学位

农户视角菌草技术推广绩效评价

面向矢量信号处理的自动向量化算法研究

为满足无线通信对实时性、低功耗的要求,信号处理器多采用SIMD(single instruction multiple data,单指令多数据)架构以加速对程序的处理。本文依托动芯矢量DSP(Digital Sign

学位

自动向量化SIMD编译优化深度因子

福建财政资金扶持农民专业合作社的效果研究

农民专业合作社是我国农村经营体制的一大创新,为我国现代农业发展提供重要组织保障,表现出了强大的带动和辐射功能,在发展现代农业,推动农业规模化经营以及带动农民增产增收

学位

福建财政资金扶持农民专业合作社效果

基于降维的聚类分析算法设计与实现

与本文相关的学术论文