基于结构化图学习的谱嵌入聚类算法研究与应用

来源 :广东工业大学 | 被引量 : 0次 | 上传用户:June_misu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会科技的发展,数据的价值变得越来越重要,各领域的数据量的快速积累。因此,各行各业都在收集大量的数据以期望建立数据库。为了让数据体现出价值,数据挖掘和数据分析被愈加重视,而分类和聚类等算法是其中较为主要的两大分支。聚类的目的是不通过标签将相似的样本划分为同一类。近几十年来,许多聚类算法被提出,基于图的算法在其中占有重要地位。基于图的方法利用数据点之间的非线性成对相似性进行聚类,例如谱聚类(Spectral clustering,SC)。该算法得益于数据的相似矩阵构造和图的切割,能够对任意形状的数据样本进行划分,且能够获得较好的聚类精度。然而,这种方法也有一些局限性。首先,虽然SC在一定程度上有降维的性质,对一些高维数据有着不错的效果,但数据维度过高的情况下可能效果不那么明显,其次相似矩阵在很多情况下是不合理的,构造矩阵需要花费大量的时间,难以有效处理大规模量数据。随着遥感成像技术的提高,高光谱图像(Hyperspectral Image,HSI)的像素逐渐提高,在对地面实际情况进行监测、精准农业、军事领域等场景中出现的频率越来越高。随着HSI数据量的剧增,在提高HSI聚类精度的同时,降低聚类的计算复杂度成为研究的热点之一。为了解决高光谱图像聚类问题,本文提出了新的联合聚类模型——联合谱嵌入与结构化图学习聚类方法。首先,通过对锚图相似矩阵进行奇异值分解,对嵌入的低维数据进行初始化;然后,利用低维表示方法求解相似矩阵,进行结构化图学习更新相似矩阵。其次,通过外部连接的方法,修改锚图矩阵更新嵌入数据,使该算法在高光谱图像数据集中具有更好的性能。为了解决高维度数据聚类问题,本文还提出了一种联合二部图与结构化图学习的聚类模型,该模型包含两个主要过程。基于二部图嵌入,可以得到数据点的低维表示。此外,通过结构化图学习,可以学习优化的相似矩阵,同时获得聚类结果。利用相似矩阵,可以通过迭代来修改二部图结构,从而得到更好的低维表示。结果表明,该方法在高维数据中具有良好的性能,在大尺度数据中比传统的基于图的方法节省时间。此外,此方法同时学习相似图并得到聚类结果,克服了传统的谱聚类中两个单独过程的优化局限性。
其他文献
随着信息技术的不断发展,网络安全问题层出不穷,网络攻击的方式也变得复杂多样。入侵检测系统具有主动防御的功能,能够对网络流量进行持续监控,提升了系统的安全性。近年来,随着机器学习技术的普及和计算力的大幅提升,大量基于机器学习的技术被应用于网络入侵检测领域,相较于传统的网络安全防御手段,更能适用于当今网络攻击复杂多样化的环境。但在大量的网络数据中入侵行为只占少数,数据分布不均衡,而且原始网络流量存在大
随着大数据时代的到来,图像数据的采集变得越来越简便与多样化。在现实应用场景中,由于采集设备、拍摄角度、目标物遮挡等外部条件是动态变化的,因此采集到的图像数据即使表示的是同一类目标,数据分布也几乎都是不一致的。大多数现有的机器学习算法是基于训练数据和测试数据分布相同的假设进行训练和测试,并不适用于处理在复杂的现实环境采集到的图像数据。作为迁移学习方法的具体应用,交叉领域识别可以有效解决上述问题。交叉
我国通信业正逐步加强网络建设,积极推进网络强国战略,为了落实提速降费,研究网络运维中基站维护是具有重大意义的。截止2019年底,国内部署的通信基站总数量已经超过800万,电信业务收入超过1.31万亿元。本文在分析国内外大量相关文献的基础上,着重展开网络运维中基站维护领域的“现场作业综合调度”优化问题的研究,希望可以提高通信基站的运营维护效率,降低通信基站的维护成本,从而降低通讯资费。通过分析基站维
比特币作为虚拟货币被人们所重视,而区块链作为比特币的底层技术被受到大量人员的关注和研究,凭借数据安全透明、防篡改、点对点传输、去中心化、可溯源等特点,区块链的应用开始层出不穷。区块链的本质也是一种分布式数据库,分布式数据库首先要解决的是多节点如何保证一致性和如何达成共识等问题。共识机制是区块链的灵魂,也是目前的研究热点之一,针对区块链项目应用场景和算法的性能要求的不同,接连出现了众多的共识机制,区
2020年由于新冠疫情的影响,人们避免面对面接触式的购物,这使得自动蔬菜机、自动饮料机等等自动无人售货机更加受到市场青睐。自动售货机市场也迎来了发展的又一次高峰。传统自动售货系统在支付方式、对售货机的状态监控方式等等方面已经落后,对于自动售货机的补货频率和区域补货人员配比问题已经成为行业的难点,该问题直接影响了商家的盈利能力,为解决该问题有必要建立销售量预测模型,根据该模型预测结果提前设计补货频率
在现实系统中,因为受部件影响,执行器总是伴随着死区特性。在生产过程中,执行器的参数也随着工作条件和环境的变化而变化。另外,参数随时间的变化会导致控制系统失衡,严重限制了系统的性能。再者,许多研究并没有考虑实际系统的切换特性。主要原因如下:在切换系统中,有许多不同的切换规则。在一定的保守条件下,没有统一的切换规则来稳定系统,使得系统的稳定性分析非常复杂。其次,由于执行器死区参数的跳变,系统的稳定性不
胼胝体是连接左右脑对应部位的最大纤维束丛,使得大脑在功能上成为一个整体。对于通过电子计算机断层扫描(Computed Tomography,CT)技术重建得到的CT图像,以及通过常规核磁共振成像(Magnetic Resonance Imaging,MRI)技术获取到的MR图像,直接在图像中分割仅能得到胼胝体的大概形状,无法利用分割信息进行胼胝体相关病理分析或实验研究,且难以重建胼胝体中的细微纤维
互联网在迅速发展使得生活变得信息化的同时也带来了很多问题,信息过载问题是当前亟待解决的核心问题之一,对互联网上的海量信息进行降维处理变得越来越有必要,而文本摘要技术便是解决该问题的重要途径之一。深度学习的发展推动了以神经网络方法为主导的文本摘要技术进步,然而当前已有的研究表明传统神经网络在文本较长的情况下会由于依赖过长导致信息丢失,无法对长文本序列进行有效地编码表示。当前主流的文本摘要方法都是基于
云计算中用户重复数据安全去重(Data Security Deduplication,DSD)技术是一种将待上传数据上传到云存储服务器之前对用户数据进行数据是否重复检测,将已在云存储服务器中出现的数据不再上传的技术,既要保证在上传下载过程中的安全,也要保证用户对数据所有权的安全。重复数据的上传,不仅会产生多余的通信开销,还会对云存储服务器的容量产生一定影响。数据安全去重技术主要面临三个挑战:1)重
5G通信技术的发展对于满足人们渴望美好科技生活的愿望带来了希望,万物互联的概念成为现实,无人驾驶、VR等产业迎来了新的机遇。但是随着频段的升高,天线的辐射衰减加大、覆盖面积降低等问题的突出不容忽视,因此高增益性能是目前5G基站天线发展的过程中尤为突出的考虑指标;磁电偶极子天线利用互补的设计理念,可实现高增益、大带宽的性能。以往的磁电偶极子天线模型覆盖3-5GHz的较少,且模型较为复杂,组阵的更少之