一种基于主动学习的半监督谱聚类算法研究

来源 :中国矿业大学 | 被引量 : 0次 | 上传用户:lgj2097
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,数据挖掘技术引起了人们的广泛关注和深入研究,而聚类技术是数据挖掘相关研究中最为常用的技术之一,得到了越来越多的关注。但是传统的聚类算法在处理样本空间的形状不呈现凸状时容易陷入局部最优解,谱聚类算法应运而生。谱聚类算法基于谱图划分理论,可以在非凸形状分布的样本空间中实现聚类,而且能够避免陷入局部最优解,收敛于全局最优,但是在类边界点的划分上不够明晰。为了得到更好的聚类效果,本文对传统谱聚类进行了改进,将半监督学习技术与谱聚类算法相融合。半监督学习可以利用带标签数据进行监督学习也可以利用无标签数据进行无监督学习,半监督学习的性能取决于监督信息,本文根据用户需要在谱聚类算法中加入成对约束信息Must-link和Cannot-link监督信息指导聚类过程。在此基础上,使用主动学习策略,提出了一种基于成对约束的主动学习方法,在数据样本类边界上通过计算函数选择特定边界点添加成对约束监督信息,从而提高聚类的正确率。最终,本文通过对传统谱聚类的改进提出了一种基于主动学习的半监督谱聚类算法(SC-ALS),并详细介绍了算法的流程。本文使用SC-ALS算法、传统谱聚类算法以及K-means算法分别在人工数据集和UCI基准数据集上进行聚类实验。通过聚类评价标准Accuracy的对比,当成对约束数目达到一定值时,SC-ALS算法聚类的正确率上优于另外两种算法,实现了良好的聚类效果。
其他文献
作为阐明疾病本质的医学科学,病理学在临床医学中占有核心地位。当前病理学的临床和教研以物理切片检查为基础,存在诸多问题。物理切片在购买、维护、储存、分发上代价高昂,长期反复取用会对切片造成缓慢的破坏,图像采集工作繁缛,切片无法进行全景浏览,无法同时供多人浏览,各种病理学应用无法与现有的数字医疗系统较好地进行整合。信息技术的发展促生了数字病理学。作为数字病理学的核心技术之一,虚拟显微镜系统为上述问题提
自1956年IBM发明第一块硬盘以来,硬盘技术取得了突飞猛进的发展,硬盘的应用也越来越广泛。自二十世纪九十年代,硬盘面密度保持60%的年增长率增长。特别是1998年后,随着GMR (G
随着家用汽车的广泛普及,汽车的安全问题越来越受到人们的关注。轮胎作为汽车的主要零部件,在汽车行驶安全中起着至关重要的作用。近年来,轮胎行业中的竞争日益激烈,产品质量
固态硬盘中闪存控制器扮演着重要的角色。闪存控制器是闪存芯片与主机接口间的关键部件,它的性能将直接影响到固态硬盘的整体性能。通过对闪存逻辑结构、存储单元组织结构的
近年来,随着网络技术的迅速发展和J2EE(Java 2 Platform Enterprise Edition)平台的广泛应用,基于B/S的多层Web应用体系结构逐渐发展成熟起来,多层Web应用的开发已成为主流。
随着互联网技术的快速发展,网络应用的不断增加,网络安全问题也日益严重。安全事件的发生不可避免,因此事件应急响应也是网络安全体系结构中不可或缺的重要环节。目前国内应
随着科技的进步及微电子技术的迅速发展,微处理器的价格逐渐下降,性能与可靠性日益提高。汽车应用软件的开发变得更加复杂和困难。各汽车生产商在开发汽车应用软件时采用的标
随着互联网的快速发展,基于Web的B/S应用程序得到快速发展。Web服务在电子商务和政务等领域不断发展。Web服务可以很好地解决系统集成、交换数据、协同办公等需求,还为应用程序
RIA软件开发作为一种新的技术,目前在技术市场上正处于起步阶段,所以针对如何高效的、准确的、低费用的开发出具有企业级规模的富媒体软件系统方面的技术标准,还没有一个统一
随着因特网资源使用的迅速发展,传统的信息交流方式发生了巨大改变,电子文档等数字资源凭借着快速的传播方式越来越普及,数字内容的版权侵权事件也呈现增长的趋势,数字版权的像护