截断式鲁棒聚类算法研究

来源 :河北大学 | 被引量 : 0次 | 上传用户:linjing912977
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的快速发展和广泛应用,各行各业积累了大量的数据信息,如何对这些海量数据进行有效处理,并从中挖掘潜在的有用信息,是目前的一个重要研究领域。聚类分析作为数据挖掘领域重要的工具之一显得愈发重要,迄今为止,研究人员提出了多种聚类算法,并被广泛应用在图像处理、模式识别、自然语言处理等领域。然而,传统的聚类算法存在一些不足,如对离群点敏感、鲁棒性不佳等,聚类性能有待进一步提高。本文把截断思想融入聚类算法研究,用以提高聚类算法的鲁棒性和聚类性能。论文主要工作如下:1.给出了截断式鲁棒K-means算法(Capped Robust K-means Algorithm,CRK-means)。针对传统K-means聚类算法对离群点敏感这一不足,结合截断式思想,将去噪比例因子引入目标函数中,同时,通过在目标函数求解过程中添加辅助变量使得在每一次迭代中实现动态更新样本权重值,从而降低离群点对算法的影响并提高了算法的鲁棒性和准确度。2.给出了截断式鲁棒子空间聚类方法(Capped Robust Subspace Clustering,CRSC)。为了解决子空间聚类对噪声敏感的问题,结合截断式函数惩罚噪声项,减少了数据样本中存在的离群点对构造系数矩阵的影响,提高了算法的鲁棒性。同时,该方法从样本间相关性出发对所有样本进行自表示,并且加入局部相似性约束,在保证全局约束的同时加强了样本间局部结构表达。该方法能得到更优的邻接矩阵,从而得到更加鲁棒的聚类结果。3.对CRK-means和CRSC算法进行了实验验证。选取人工数据集、UCI标准数据集以及图像数据集,对所给出的算法进行了实验研究以及参数分析。实验结果表明,本文给出的CRK-means算法和CRSC算法在提高算法鲁棒性的同时提高了聚类的准确度。
其他文献
我国《民法总则》第十条的规定,首次从立法层面确立了习惯的法源地位,交易习惯作为习惯的一种,具有解释、补充合同和鼓励交易等意义。根据我国《最高人民法院关于适用<中华人民共和国合同法>若干问题的解释(二)》规定,交易习惯是某地区、某行业或当事人之间的习惯做法,并且主观上要求“知道或应当知道”,结合自身的时间性、领域性、主体特定性等特点,交易习惯为大众或特定人所熟知、应知的,且被重复使用的社
传统的紧耦合网络为人带来便利的同时,其诸多弊病也为越来越多的人所诟病。因此,近年来许多人都开始研究和探索新的网络体系结构,软件定义网络(Software Defined Networking,
创新是一个国家经济健康发展的关键,核心技术的自力更生更是关系到国家安全与经济命脉,而企业创新是国家创新的经济基础。作为创新型企业不断创新的重要驱动力,风险投资为企
农业是我国经济发展的基础,而农业现代化是整个国民经济现代化的基础。由传统的依赖投入大量要素的粗放型农业经济增长方式转变为通过农业全要素生产率增长为推动力的创新驱动型增长方式,是实现未来中国农业经济可持续发展的关键所在。乡村振兴战略提到“发展乡村普惠金融,优化金融资源配置”,强调了农村普惠金融发展在农业现代化进程中的重要作用,为新农村建设指明了方向。本文以金融发展理论为基础,普惠金融相关理论、金融对
随着计算机存储技术的发展,日常生活中产生了海量数据。对大规模数据进行分析,从中挖掘出隐藏的有价值的信息逐渐成为当今时代的热点。聚类技术和降维技术是两种常用的数据分析方法。聚类用以寻找数据内在的分布结构,降维用以缓解维度灾难。但是传统数据分析方法在分析海量高维数据时存在操作过程繁琐,分析准确率低等缺点,因此研究用于同时实现聚类和降维的高精度模型势在必行。本文首先提出了基于曲线距离分析的嵌入式聚类算法
随着现代光学事业的迅速发展,超精密光学产品已经广泛应用到了各种高新技术行业,尤其是大尺寸光学元件在航空航天等领域有大量的需求。由于精密光学产品的制造工艺复杂、难度
铁路市场化是不可避免的趋势。铁路各个部门和各个路局都想开展收益管理,以此提高资源利用率,提高运营效益。想要实现收益管理,前提是对客流进行较为精准的预测。效果较好的客流预测将会给收益管理带来极大的方便,进而提高收益。中短期的客流预测是了解客流动态变化趋势的重要手段,是铁路运营部门进行合理营运管理的基础。伴随着互联网售票的逐渐建立和完善,铁路客票系统的数据得到了质与量的保障,积累了丰富的历史数据和有用
在大数据、人工智能深度融合发展的数据科技时代,城市计算为解决交通拥堵等城市问题提供了新思路和新途径。构建数据驱动的智能交通系统是打造以数据为中心的智慧城市的关键任务,而高效精准的交通流量预测是建设智能交通系统的重点内容。本文基于Hadoop分布式计算平台,采用MapReduce和Spark并行计算框架,结合移动轨迹(出租车)大数据,研究短时和实时交通流量预测的理论、方法与应用,致力于解决交通流量预
保障自来水供应安全始终是城市可持续发展所面临的重大现实课题。城市供水企业担负着城市自来水的生产、供应、营销、服务等任务,是满足经济社会发展和人民生活用水需求的重要公用事业单位。B公司作为北京市自来水集团下属的从事北京市海淀区自来水营销服务的专业性分公司,肩负着为广大用户提供自来水营销服务的重要任务。近年来,公司持续向标准化、制度化、精细化方向推进各项自来水营销服务工作,但仍以经验型、粗放型的管理方
随着科学技术的不断进步,计算机技术得到飞速的发展,人脸识别技术在各种领域发挥着越来越重要的作用。人脸在实际环境中,伴随着各种不可预知的情况,会呈现出复杂多变的特性。