【摘 要】
:
聚类分析是一种重要的无监督学习方法,旨在挖掘数据中潜在的数据结构和规律,将数据划分为多个簇类,是数据挖掘、机器学习以及信号处理等多个领域重要的数据分析和处理工具,具有重要的研究价值和应用前景。随着计算机技术以及各种传感器技术的发展,数据获取与采集能力大大提高,数据的维度和规模越来越大,传统聚类算法因无法克服维数灾难问题而不再奏效。子空间聚类算法利用高维数据可能分布于多个子空间结构的数据特点,将样本
论文部分内容阅读
聚类分析是一种重要的无监督学习方法,旨在挖掘数据中潜在的数据结构和规律,将数据划分为多个簇类,是数据挖掘、机器学习以及信号处理等多个领域重要的数据分析和处理工具,具有重要的研究价值和应用前景。随着计算机技术以及各种传感器技术的发展,数据获取与采集能力大大提高,数据的维度和规模越来越大,传统聚类算法因无法克服维数灾难问题而不再奏效。子空间聚类算法利用高维数据可能分布于多个子空间结构的数据特点,将样本划分至多个子空间簇类,大大提升了在高维数据上的聚类性能,逐渐成为重要的高维数据聚类分析方法,在近十年得到了广泛的关注和研究。然而当面对更高维、更大数据量的数据集时,子空间聚类算法暴露出运算效率不足、聚类性能低等问题。此外,现有的子空间聚类算法不能有效处理时序数据以及处于高度非线性流形上的数据。本文针对现有子空间聚类算法在高维数据处理、运行效率提升、时序数据处理、非线性流形数据处理四方面存在的问题和不足,提出了四种快速高效的聚类算法。本文主要工作如下:(1)针对现有子空间聚类算法在应对高维数据时缺乏有效降维方式的问题,提出了一种同时学习降维投影矩阵和自表示系数矩阵的子空间聚类算法。该算法设计实现了一种结合数据降维和自表示学习的联合学习框架,通过该框架学习得到符合多子空间结构的降维投影矩阵,并且自表示子空间聚类是在降维后的低维空间进行,大大降低了聚类的运算时间,提升了模型的聚类准确率。(2)针对现有子空间聚类算法时间复杂度高、运行效率慢的问题,提出了一种基于矩阵分解的快速低秩子空间聚类算法。将核范数优化问题转化为两个小矩阵的Frobenius范数问题,大大降低了算法的时间复杂度,提升了算法的运行效率。(3)针对时序数据分割应用场景,提出了一种面向时序数据的子空间聚类算法—基于弹力网正则的时序子空间聚类算法。该算法充分考虑了时序数据在时间域上相邻帧之间的关联,设计运用兼具块对角化逼近特性和分组效应特性的弹力网正则约束以及时域光滑正则项,大大提升了子空间聚类算法应用到时序数据分割的准确性。(4)针对分布在非线性流形结构上数据,本文设计提出了基于一种端到端的深度聚类网络,利用数据的自增广一致性以及类别数目均衡性等设计损失函数指导网络训练。在多个公共图像数据集上与相关算法进行比较,验证了所提方法对处理非线性流形结构数据的有效性。
其他文献
互联网的高速发展推动着电子商务的蓬勃发展,各大电商企业为了让消费者充分享受电子商务的便捷之处,纷纷推出电商APP,但是浏览商品图片的购物方式已经不能充分地满足消费者的需求,并且APP下载安装流程复杂,这使得平台流失了不少用户。随着中老年用户的大面积触网,微信已经成为他们生活中不可或缺的一部分。该基于微信小程序的电商平台无需下载安装,操作便利快捷,微信强大的社交功能可以为平台获取大量的粘性用户。论文
图像目标检测技术是计算机视觉领域研究的基本问题之一,主要任务是在图像中对特定的目标物体进行定位和类别识别。现代目标检测技术大多基于深度学习方法,借助神经网络结构强大的图像特征学习能力,实现目标区域的类别预测和边框位置回归。然而该类方法仅利用视觉特征信息,而且独立地处理每个目标物体,缺乏对具体场景信息和目标之间内在关系的分析,因此整体检测精度受限,也难以适应复杂场景中多目标、多类别物体的准确识别需求
随着互联网的发展,数据呈爆炸式增长。网络中的数据有结构化数据、非结构化数据和半结构化数据之分,结构化数据一般以网络表格的形式呈现,相较于其他类型的数据,人们更容易从网络表格中发现感兴趣的信息。实体扩展是指,对于给定以实体列和属性名组成的查询表,将网络中的大量结构化表格作为数据源,对查询表所需要的属性值进行填充的技术。该技术在数据集成、信息检索等领域有广泛的应用。目前的实体扩展方法,主要通过模式匹配
涉密文件涉及国家利益、企业利益和个人利益,关乎国家安全、商业安全和公共安全,纸介质载体在涉密文件分发、使用和溯源过程中具有不可替代的作用,而使用数字水印技术是防止纸介质资料非法打印传播、追溯打印源的有效方法。基于数字水印的涉密文档溯源是当前信息安全领域研究的热点课题。但当前世界上的文本数字水印研究的字体多为英文,而汉字与英文在结构、笔画等方面都存在巨大差异,现有英文数字水印技术并不适用于中文文本,
在互联网时代里,Web应用需求越来越复杂,产品开发周期不断缩短,手工测试存在效率低、覆盖率低的问题,因此不少企业选择运用自动化测试工具进行回归测试。由于一些商用软件的价格比较昂贵,一般的互联网公司会选择使用开源软件开发出自己的自动化测试系统,可以在一定程度上提高测试的效率。同时,在测试工作中,性能表现对于Web系统而言尤为重要,而Web负载测试是确保Web系统性能的必要手段之一。通常,这些负载测试
随着互联网的快速发展,分布式系统因在其分布性、资源共享、可扩展性等方面的明显优势,成为了当前互联网的主流架构。分布式系统的应用涉及社会的各个领域,其安全问题影响着人们的生命财产安全,及时地发现系统中的安全问题至关重要。模糊测试是目前发现系统安全问题最有效的自动化方法之一。因此,研究对分布式系统进行模糊测试发现其安全问题的方法十分重要。分布式系统的模糊测试属于网络协议测试中的一种(远程访问服务)。目
机器人操作行为是机器人与外界交互的重要方式之一,逐渐成为机器人领域的研究热点,并且对机器人领域的发展具有重要意义。抓取行为是机器人操作物体的主要方式,但面对复杂且物体排列紧密的环境时,机器人仅通过抓取行为难以高效地完成操作任务,还需借助推动行为。推动行为可以为抓取行为创造空间,但二者的协同策略存在过拟合和采样效率低的问题,且缺乏有效的行为评价体系。为了使抓取和推动行为的协同策略对复杂而密集的物体排
随着21世纪信息技术的迅速发展,许多业务领域的企业与公司以及运营商都在提供线上产品服务,在客户量不断增长的同时,人工客服的需求量也在不断增长。智能客服问答系统可以以标准、精确和简洁的检索结果来回答大量用户使用自然语言提出的大量的重复或相似地问题,可以协助人工客服,减少大量的人工客服的工作量。因此,设计并且开发一套美人鱼智能客服系统是十分重要的。在此背景下,本论文研究设计并且实现了美人鱼智能客服系统
中医药学凝聚着深邃的哲学智慧和中华民族几千年的健康养生理念,在长期的临床诊疗实践中积累了丰富且宝贵的资源,这些资源种类繁多、数据量巨大并广泛分布于整个中医药领域,如何充分整合、利用及管理这些数据资源是中医药面临的难题。中药处方是中医药学理、法、方、药的重要组成部分,是在辨证论治的基础上选药配伍形成,基于大规模临床数据,发现治疗疾病的有效核心处方和潜在药物配伍可有效辅助临床决策支持。但当前仍然较多的
将收集到的动物行为视频素材,按照教育教学的目的要求,通过相关剪辑编辑软件,制作动物行为视频案例库。编辑完成的动物行为视频案例分为本能行为、学习行为、生存行为、繁殖行为、社群行为、动物福利和研究方法等类别,其中大部分为短视频和微视频,便于在动物行为学、生态学、心理学和社会学等课程的教育教学和相关科普活动中加以应用。动物行为视频案例教学不仅可以传递动物行为学的专业知识,还可为弘扬生态文明、建设美丽中国