基于自适应图正则化的聚类算法研究

来源 :安徽工程大学 | 被引量 : 0次 | 上传用户:bitdefender2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类是现代机器学习研究的一种重要的数据分析方法,在数据挖掘、模式识别等领域有着广泛的应用,其目的是通过得到的类或簇来寻找数据集和数据的特点并对数据进行处理。为了弥补原始聚类的方法一些不足,提升聚类方法的性能,很多学者提出了相关的改进方法。在众多改进算法中,基于图正则化的聚类算法由于其优越的聚类性能而获得了广泛的关注,其通过利用数据中隐藏的流形结构信息来提升原始聚类算法的性能。具体而言,基于图正则化的聚类算法构建拉普拉斯(Laplacian)图来利用原始数据中的流形结构,然后将Laplacian图融入到原聚类算法的目标函数中,从而提升原聚类算法的性能。显而易见,图构建的好坏对基于图正则化的聚类算法的性能有着重要的影响,然而,现有的算法在构建图的过程中,其图的构造是预先指定的,且图的构造和原聚类算法的目标函数是独立的。通常这些算法都需要进行多次调参才能找到一个较好的图。因此,本论文对基于图正则化的聚类算法开展进一步地研究,通过构造自适应图来进一步提升算法的性能,本文的主要研究成果如下:(1)本文对聚类方法的相关知识进行了详细的阐述,对基于图正则化的方法如何提升原有聚类方法的性能进行了介绍,并对其中的两种改进方向即图正则化稀疏编码算法(graph regularization sparse coding,Graph SC)与图正则化非负矩阵分解算法(graph regularization nonnegative matrix factorization,GNMF)进行了细致的说明;同时,本文还总结了一些经典的基于图正则化的聚类算法,并通过真实数据集上的实验分析了算法的性能。(2)提出了自适应正则化稀疏编码(graph regularization sparse coding with adaptive neighbour,Graph SCAN)算法。对Graph SC算法进行了进一步地研究,由于Graph SC使用K近邻方法(K nearest neighbor,KNN)来构造Laplacian图,而KNN构造的图并不能完全拟合数据。因此,本文提出了Graph SCAN算法。该算法首先使用自适应方法构建合适的局部Laplacian图,然后将其加到稀疏编码的目标函数中,从而将图的构建和稀疏编码纳入到统一框架中,使得图的构建与稀疏编码的运算同时迭代进行。同时,文中也给出了一种求解Graph SCAN的有效算法,并通过在两个图像数据集上的实验验证了算法的有效性。(3)提出了一种自适应图正则化的低秩非负矩阵分解算法(nonnegative low-rank matrix factorization with adaptive graph neighbors,NLMFAN)。针对现有GNMF算法中的不足之处:一是,GNMF算法并没有考虑数据的低秩结构;二是,在GNMF算法中,其拉普拉斯图是使用KNN方法预先定义的,而KNN方法无法总是获得最优图解,从而使得GNMF算法的性能不能达到最优。为了解决这些问题,本文提出了NLMFAN算法。一方面,通过引入低秩约束,使得NLMFAN可以获得原始数据集的有效低秩结构;另一方面,设计了一种通过自适应求解相似度矩阵的方法来进行图的构建,即图的构造和矩阵分解的结果被融入一个整体的框架中,使得图中节点的相似性是自动从数据中学习得到的。此外,文中还给出了该算法的求解框架,在CLUTO及UCI数据集上的通过实验证明了该算法的优越性。(4)提出了一种自适应邻居的多图正则化非负矩阵分解(multiple graph regularized nonnegative matrix factorization with adaptive neighbors,MGNMFAN)。GNMF只构造单个Laplacian图来近似数据的流形结构,使得其无法准确捕获隐藏在数据中的几何结构;此外,其Laplacian图通常使用k NN方法来构造,而该方法可能破坏原始数据的局部连通性,并且无法获得最佳近邻。为了解决这些问题,我们提出了一种新的算法模型,即MGNMFAN算法。MGNMFAN不仅使用自适应方法来构造单个的Laplacian图,还使用带有自动权重参数的多个Laplacian图的线性组合来更好地拟合原数据的固有流形结构。本文也给出了一种求解MGNMFAN的有效算法,在多种图像数据集上的算法对比实验验证了算法的聚类能力。
其他文献
历史悠久、形式丰富的传统手工艺凝聚了中华民族的造物智慧、哲学思想、审美意趣和文化观念,是我国非物质文化遗产和优秀传统文化的重要组成部分。无为剔墨纱灯因其华丽的形式、繁复的雕刻、精湛的绘画和美轮美奂的装饰闻名于世,是一朵华丽多彩、绚丽无比的民艺之花。随着社会经济的快速发展和全球化进程的加剧,无为剔墨纱灯的形式承载、审美取向、文化意涵与当下的社会环境、文化观念却大相径庭,产品难以融入消费者的日常生活。
学位
漆酶是一种绿色生物催化剂,能够催化木质素、酚类、胺类等芳香族化合物或其他部分非酚化合物的氧化降解,最终将分子氧还原成水而不产生其他副产物。由于对底物的广泛适用性和催化过程的无毒害性,漆酶被广泛用于木质纤维素的预处理、食品加工、有机合成、环境有毒难降解物的治理等诸多领域。本研究对一株变色栓菌Trametes versicolor LS-10C(简称LS-10C)产漆酶液态发酵条件进行了优化,并对不同
学位
汽车的造型形态已经成为了提升消费者购买欲的重要因素,不同厂商推出了各式各样造型形态的汽车,但并不是所有汽车造型都符合消费者的审美特征。随着感性时代的来临,具备感性因素的汽车造型形态能够更好地满足消费者的审美需求,提高消费者的购买欲望。因此需要一种考虑消费者感性需求并将其融入到汽车造型形态设计中去的方法。感性工学方法是一种建立消费者感性认知与产品造型形态间桥梁的方法。本研究的目的是利用感性工学的方法
学位
“一生痴绝处,无梦到徽州”。徽州以古村落闻名,近年间关于徽州古村落的研究日益增多,而与之不可分的“水口”的相关研究却较为缺少。在古代徽州的村落布局中,“水口”是必不可少的组成部分,水口之于村落,就如画龙点睛一般,是整个村落的灵魂所在,也是象征村落的标志性符号。因此,水口文化在徽州古村落中极其重要。对徽州古村落的“水口”文化,学者们从不同的角度进行了研究,大多数研究侧重于基本的理论研究。而本文通过对
学位
伴随大数据时代的发展,互联网中出现越来越多的实体、不同的实体指称和更加细致的实体类型。而命名实体识别任务只能为实体指称分配粗粒度的实体类型标签,因此如何根据不同的实体指称分配细粒度的实体类型标签成为研究的热点问题。在给定实体指称及其上下文的条件下,细粒度实体分类任务为实体指称分配一个或多个类型标签,而且类型标签之间通常具有一定的层次结构。细粒度的类型标签为实体指称提供了更多的语义信息,能够为关系提
学位
农作物病害对农业生产和经济效益有重要影响,及时发现作物病害并准确判断出病害种类对保护作物安全和控制病害传播都有重要意义。传统的肉眼观察方法需要农业从事人员拥有专业知识和丰富经验,而且诊断质量完全取决于他们的专业水平和经验,准确性和及时性难以保障。近些年,相关研究大多是构建现代自动识别系统应用于农作物病害图像识别任务。其中,基于深度学习的作物病害识别研究取得了较为先进的成果,但是在农作物实际生长环境
学位
迄今为止,我国高校的发展速度十分迅速。高校的办学方式也层出不穷,出现了众多诸如校企合作办学以及中外合作办学院校。这些学校的规模和办学水平以及校园整体环境建设都有显著提升。其中,高校校园标识导向系统是高校校园环境建设的重要组成部分。然而,我国高校校园标识导向系统的现状却不尽人意。许多高校忽视了标识导向系统整体性、系统性以及文化性的建设,导致校园内的标识导向系统出现缺失以及模糊不清、指向不明,缺乏高校
学位
区块链是当下金融科技领域最受关注的方向之一,它起源于比特币这一点对点电子现金系统,区块链是构建比特币数据结构与交易信息加密传输的技术基础,实现了比特币的挖矿与交易。本文基于区块链背景重点研究挖矿市场中蕴含的经济金融机理,包括矿工及矿池谋求效用最大化、整个市场不断趋于动态均衡状态等,并运用其中的部分机理为区块链在金融领域的应用研究提供理论模型框架。首先,本文在绪论部分阐明了研究背景及意义,并对国内外
学位
回顾全世界的古村落保护建设运动,中国的古村落保护建设由来已久。古村落保护修建活动是中国农村建设的第一个阶段,最近十年旅游业的迅速发展也带动了古村落游览量的逐年增长。随着村民对生活质量要求的提高,马头村大批古建筑年久失修,现有的自然景观,农业景观,聚落景观,以及基础设施遭到了破坏,不仅影响了村落的整体景观效果,还存在一定的危险系数,所以马头村的景观环境优化设计迫在眉睫。泾县古村落马头村保护与景观优化
学位
近年来,电子商务的发展极大促进了人们购物的热情,众多网购平台积累了海量的在线评论数据。这些评论除了包含大量的短文本信息外,还涉及用户、时间因素、情感信息等多种非文本信息,不仅成为消费者进行选购时的重要参考内容,也成为商家、企业进行决策与分析的重要切入点。从海量的产品评论中分析用户的兴趣及偏好,已经成为企业提升商品和服务质量、制定营销策略,把握流行趋势不可或缺的信息来源。网购平台作为信息传播与共享的
学位