基于自表达的多视图聚类算法研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:27-Aug
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着通信技术与互联网的普及,人们所接触到的数据量呈现指数级上涨,大部分都是未进行标注的数据并且数据结构呈现出多视图,图结构的特性。多视图聚类算法通过挖掘数据之间潜在的联系,将数据分为指定的簇,从而对数据进行有效的利用,以解决生产实践中的各种问题。多视图聚类算法可以大概分为基于传统机器学习和基于深度神经网络的聚类算法。受益于自表达模型和深度神经网络的强大特征表示能力,这些算法在许多任务中展现了良好的效果,但这些算法仍面临一些挑战。首先,自表达模型的较高内存成本和巨大时间复杂度对解决大数据聚类产生了阻碍,其次现有算法大多注重挖掘数据特征信息,忽略数据之间潜藏的图结构信息,从而难以捕获数据局部结构信息,同时现有算法不能解决聚类问题中的样本外问题。面临的另一挑战是现有多视图图聚类算法很难同时处理数据的特征信息和图结构信息,且最先进的多视图图聚类算法都是浅层或深层模型。浅层方法会限制其对复杂数据建模的能力,而基于神经网络的方法涉及大量参数,使计算成本高昂。面对上述挑战,本文主要进行了以下三个方面的研究:(1)我们首先提出了一种基于结构化图学习的可扩展子空间聚类算法,基于图论中锚点和二部图的思想,我们构建一个二部图来描述样本和锚点之间关系,利用连通性约束,确保连通分量直接划分聚类簇,然后进一步建立了该算法和k-均值之间的联系,最后通过锚点图思想引申出了解决样本外问题的高效算法。此外,在单视图的基础上扩展了一种处理多视图数据的模型,模型时间复杂度为线性。(2)由于(1)提出的算法只能解决非图结构的数据,所以本文接着针对多视图图数据提出了一种简单有效的基于图滤波的多视图属性图聚类算法。首先,在不需要学习神经网络参数的情况下,对特征进行图滤波操作以获得平滑的表示。其次,原始图结构可能有噪声或信息不完整,因此我们通过利用自表达模型结合权重机制,从异构视图数据中学习一致性图。最后,通过设计一个正则化项,以灵活的方式探索图结构高阶关系。实验结果表明本算法优于现有大多聚类算法。(3)由于(2)提出的算法中的自表达模型中具有较高时间复杂度且内存成本过大,使算法难以运用于大规模的图数据,我们引入基于节点重要性的采样策略,结合锚点图,将算法时间复杂度降低到线性,并通过实验验证算法的有效。
其他文献
目的:从有效性、安全性、经济性、创新性、适宜性和可及性6个维度,对左卡尼汀口服溶液进行药品临床综合评价研究。方法:系统检索PubMed、Embase、the Cochrane Library、中国知网、万方数据库和中国生物医学文献数据库和CRDWeb等数据库(检索时限为建库至2020年10月),通过快速卫生技术评估的方法对左卡尼汀口服溶液的有效性、安全性和经济性进行分析。检索国家药品监督管理局、国
期刊
实事求是地说,英国文化协会是英国文化外交的主要执行机构。作为一个准政府组织,英国文化协会在传播英国文化、塑造英国形象和提高英国国际地位方面发挥着重要作用。此外,英国文化协会在语言传播方面有着突出的作用,这对英语世界语言地位的确立作出了巨大贡献。本文试图从文化外交的角度,深入探讨英国文化协会的语言传播策略、活动及其效果。此外,本文还试图分析英语语言传播的软实力功能以及其与软实力的关系。最后,本文将阐
学位
20世纪60、70年代,嘻哈文化起源于美国纽约两大黑人聚居区(布朗克斯区和哈莱姆区)的底层非裔青年中。彼时的纽约种族隔离现象严重,美国政府故意无视隔都恶劣的生存状况,大幅削减福利支出,使得非裔青年陷入绝望。由DJ打碟、说唱乐、霹雳舞、涂鸦四大要素构成的嘻哈文化由此诞生。嘻哈文化继承了哈莱姆文艺复兴运动和黑人文艺运动对黑人身份与黑人文化的强调,并受到嬉皮士文化、多元文化主义的影响,体现出对主流文化价
学位
问答系统在自然语言理解中发挥着重要作用,是评价对于数据集进行阅读理解相关能力的替代方式,具体的问答方式包括有:范围提取、多项选择和开放领域等等。然而这些数据集都有明显的限制:其一为缺乏数学推理,数学推理作为人类的智力技能,该考验可以进一步推动问答推理的发展;另一方面缺乏推理的可解释性。这些都阻碍着问答社区之后的发展。为了解决上述的缺陷,我提出了一个新的数据集——Noah QA。该数据集引入数学应用
学位
本文从文化工业理论视角出发,结合上世纪美国流行音乐产业的发展,从生产、流通、消费三个阶段讨论了文化工业的特性和流行音乐产业被文化工业收编的过程。本文认为文化工业具有标准化、商品化、商业化、技术化、程式化、伪个性化六个特点。流行音乐在发展过程中呈现出的这些特点体现了它被文化工业收编的过程。其次,本文通过分析麦当娜的形象和音乐作品的文化反抗性质,并结合伯明翰学派关于工人阶级的理论思路讨论了文化工业内部
学位
自2000年以来,国内伺服驱动技术飞速发展,实现了从无到有的转变,涌现出了一批优秀的民族企业。从技术水平及市场占有率的角度分析,本土品牌在中低端市场已经占据了一席之地,但是极限性能和智能化程度距离国外顶尖厂商尚有一定差距,高端伺服市场仍然被欧美和日系产品所占据。因此,高性能永磁同步电机(Permanent Magnet Synchronous Motor,PMSM)交流(Alternating C
学位
依据国家林业和草原局、农业农村部2021年9月发布的《国家重点保护野生植物名录》,查阅中国科学院华南植物园标本馆(IBSC)、华南农业大学林学与风景园林学院树木标本室(CANT)、中国数字植物标本馆(CVH)等馆藏标本,以及相关文献,结合近年来的野外调查记录,整理出新版广东省国家重点保护野生植物名录及地理分布数据,利用Arc GIS软件,对其分布格局进行分析。结果显示,广东省国家重点保护野生植物共
期刊
数据共享开放和流通是提升沉淀静态数据价值并转换为动态资产能力的一种实现方式,通过行业间的数据共享互换从而构建多维度且丰富的数字经济产业。在数据为核心的思想下,数据在共享交换过程中的安全性、便捷性以及多方权益的考虑将直接影响到该经济产业形态下参与各方的合作意愿度。在当前的解决方案中,更多的是将多方数据汇聚于中心化的存储网络,并通过远程调用实现数据的获取,此种方案存在数据同步困难、存储维护成本高以及数
学位
按照人体由内及外的抽象结构顺序,分别从心脏电传导系统、心脏结构(包括瓣膜、心肌、冠状动脉等)、心脏外部其他系统等方面,列举人工智能(artificial intelligence, AI)特别是深度神经网络在心电分析领域的最新研究进展。本文介绍了AI心电分析技术在识别心律失常、电解质紊乱、心脏瓣膜病、冠心病及循环系统、消化系统等疾病方面的应用,还涉及其在个人身份识别领域的创新应用,以及迁移学习等A
期刊
强化学习是神经网络技术研究与应用的一个重要领域。强化学习算法主要被用于序列决策和智能体控制任务。在机器人控制、游戏AI和围棋等许多领域中,强化学习都得到了成功的应用。强化学习中的环境奖励对模型的训练起着关键的作用。然而,在很多运行环境中,算法经常会遇到奖励过于稀疏的问题。缺乏有意义的奖励信息会使模型难以高效地寻找到最优策略,这限制了部分场景中强化学习算法的实际应用。因此,研究稀疏奖励问题和其解决办
学位