面向高维数据的聚类算法设计和张量低秩表示研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:ustczl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类算法在探索数据可视化和发掘数据底层结构等领域得到了广泛的应用和发展。工业生产活动中产生了大量无标签的数据,对这些数据进行聚类具有重要意义。当前聚类算法在检测识别形状不规则的簇时,通常会面临着算法参数增加或聚类精度下降的问题。基于密度峰值的聚类算法利用决策图寻找密度峰值,从而可以发现数据底层结构。该类算法在高效识别不规则簇的同时,能够实现算法参数和聚类精度好的折衷。然而,当数据集中簇存在内部不均匀分布现象时,基于密度峰值的聚类算法可能无法确定正确的中心点,导致簇划分错误。在实际互联网数据中,数据通常还具有特征维度高、样本稀疏的特性,导致真实簇结构通常存在于样本对应的低秩子空间中。另外,先验概率分布的多样化,张量数据的增量式更新,会导致张量低秩表达的分析过程变得复杂。针对上述问题,本文通过分析基于密度峰值的聚类算法,研究高效准确获取数据真实簇分布的聚类算法,并将其用于高维数据聚类;在分析张量分解理论的基础上,提出了可适应不同数据分布和可在线学习的张量分解方法,并扩展到GPU和多GPU上。论文的主要研究工作如下:
  针对数据集中簇内分布不均匀的问题,本研究提出了一种基于层次化策略的密度峰值算法(HCFS)。本研究主要包括形成子簇和合并子簇两个方面:第一,在形成子簇的过程中,选择多个密度和距离都较大数据点作为备选中点。这一方面能规避掉选择“符合条件”的中心点带来的困难,另一方面避免了因选择错误的中心点而出现的误分类。第二,在合并子簇的过程中,提出一种能同时度量相邻子簇间联通性与相似性的方法,降低了参数设置的难度。在多个常用UCI数据集上进行了相关的对比实验,结果证明本文算法较好地解决了数据集中簇内不均匀分布的问题。
  针对高维数据集中簇内分布不均匀的问题,本文提出了一种改进的基于多视图和张量低秩表达的子空间聚类算法。首先,本文采用求解误差矩阵‘2,1范数最小化的方法解决了高维数据集多视图特征数据中噪声、数据损坏的问题;其次,本文把多视图的相关数据堆叠成张量,并把求解多视图子空间表达的优化问题转化成为求解张量的低秩表达问题,以充分考虑视图间的互补性。本文基于以上两个方面从高维数据集中得到了更加准确的子空间表达,进一步整合并确定了最终的相似度矩阵。最后,本文通过结合合理的相似度矩阵与HCFS算法,解决了高维数据集中簇内不均匀分布的问题。在多个多视图人脸数据集上,进行了与其它几种典型的子空间聚类算法之间的对比实验,结果表明了本文算法的有效性。
  数据分布多样性普遍存在,需要独立推导基于不同数据分布的因子矩阵更新规则,这给稀疏非负张量分解分析带来了困扰。针对这种情况,本文提出了一种通用的因子矩阵更新规则。首先,本文基于单通道的模型设计了逐元素更新的策略,遵从稀疏张量的稀疏性,从而避免产生大规模的中间矩阵;其次,本文通过设置自适应的训练步长,保证了因子矩阵损失函数的单调性和因子矩阵元素的非负性;最后,本文分析和推导了不同数据分布下因子矩阵的更新规则,并提出了一种通用的因子矩阵的更新规则,以适应多种不同的数据分布。此外,本文算法通过把整个因子矩阵元素的求解问题分解为多个独立行元素的求解问题,一定程度上实现了并行化设计。在多个真实的稀疏张量数据集上,进行了与其它稀疏非负张量分解模型之间的对比实验,结果表明了本文算法高效的收敛性、准确性,以及对不同数据分布的适用性。
  随着数据量的不断增加,单个GPU不能加载和处理整个数据集。另外,随着互联网的迅速发展,数据更新的速度也随之加快;忽略实时数据将可能会导致信息的大量损失,重新处理整个数据集又将会造成大量的资源浪费。针对第一个问题,本文通过研究多个GPU之间的通讯原理,提出了一种基于多GPU的因子矩阵更新规则。同时,本文结合逐元素更新的策略,解决了现有并行化和优化求解算法中临时矩阵带来的大量计算和存储开销问题。针对第二个问题,本文结合在线学习的策略,提出了针对实时数据的因子矩阵更新规则。此外,本文还改进了CSF(Compressed Sparse Fiber)树的存储结构,提出了一种合并旧数据与新数据的方法。在多个高阶数据集上,进行了1、4、8个GPU上稀疏非负张量分解的实验,结果表明了本文基于多GPU算法的有效性和可扩展性;在动态更新数据集上的实验,证明了不损失实时数据信息的情况下,本文在线学习的算法能达到降低计算资源和存储空间消耗的目的。
其他文献
学位
近年来随着对港口环保的要求不断提升,船舶岸电技术在靠港船舶中的应用越来越广泛。船舶岸电是指船舶靠港后停止使用船舶柴油机机发电,而采用港口岸电系统向船舶提供电力,从而减少大气污染物排放。船舶岸电的监控与运维一体化技术研究,对提高港口岸电系统运行的稳定性和高效性具有重要意义。  本文针对船舶岸电监控与运维一体化系统展开了研究,设计了监控与运维系统的总体架构和系统功能,研究了岸电并网运行过程中船舶负载变
学位
目前,国内的造船企业对于船体外板的加工成形,都是依赖于经验丰富的工人手工加工来完成。随着我国造船业的蓬勃发展和订单量的增加,传统的手工加工方式在造船质量与造船速度都无法满足日益增长的需求,造船技术亟需现代化升级。同时,在2016年国务院发布的《中国制造2025》发展战略中明确提出了智能制造、绿色制造的诉求,并将海洋工程装备和高技术船舶这两个领域作为未来十年的发展重点之一。因此,研究船体外板的曲面成
学位
随着物联网技术的发展,越来越多的传感器出现在日常生活和工业领域中,海量传感器产生的时间序列数据具有动态性、异构性、大规模性以及时间依赖性等特点,增加了在不同物联网应用中的决策的艰难性。对物联网时序数据进行分析时,需要综合考虑多种类型的传感器数据来提升时序数据预测性能。同时,对物联网中传感器产生的大量数据存在的异常进行检测,也是亟需解决的问题,通过对物联网时序数据进行异常检测,可以降低异常造成的损失
学位
随着多模态数据的积累和深度学习的飞速发展,以视觉问答为代表的跨模态学习任务得到了广泛的关注和研究。视觉问答是指给定图像和自然语言的问题,对图像的视觉元素进行推理以推断出正确的答案。该任务是一项具有挑战性的多模态学习任务,因为它需要同时理解文本和视觉模态。因此,以细粒度的方式表示问题和图像在模型性能的提升上起着至关重要的作用。为了获得细粒度的表示方式,本文以注意力机制为基础设计了端到端的深度神经网络
学位
图像语义分割作为计算机视觉中一个非常重要的研究领域,对图像内容的分析和理解发挥着极其重大的作用。图像语义分割能够根据图像中不同的语义含义对每个像素点进行分类,使得属于相同类型对象的像素点被划分为同组。近年来,随着全卷积神经网络的出现和发展,图像语义分割技术取得了极大的进展。然而,现有的基于全卷积神经网络的图像语义分割方法目前仍存在着难以正确分割多尺度物体、丢失大量空间信息以及缺少上下文信息等主要问
教计算机"学习"并不像听起来那么遥不可及。计算机如何区分手写数字的图片?或者学习将文字分类?这些事情都可以通过将许多简单的单元串起来,建立起一个学习网络来解决。该研究领域称为“人工神经网络”,它能够解决许多非常复杂的问题,本文研究基于人工神经网络的文本分类问题。  本文的第一个贡献是为神经网络引入了一种新颖的激活函数。激活函数是人工神经网络架构的核心,它使人工神经网络能够对输入和响应变量之间的复杂
学位
TCP协议是大多数现代在线Web服务的底层传输协议,它的传输时间对Web服务性能至关重要。然而,数据包丢失会导致TCP传输性能显著下降,这极大地增加了Web服务的访问延时。本文通过分析全球最大互联网公司之一的真实Web访问数据发现,目前其传输过程中遭遇网络丢包现象严重,而TCP低效的丢包恢复机制使得传输时间显著增大。因此,之前的工作尝试在TCP上增加激进程度来加速丢包恢复,这些方案在快速恢复或超时
学位
随着人们对于信息化需求的不断提升,光接入网架构的升级与技术的提升已成为必然趋势。无源光网络(Passive Optical Network,PON)技术被视为光接入网的主流承载方式,其系统带宽、频谱利用率、传输速率与安全性等指标也被提出了更高的要求。将具备高频谱效率、低成本等优势的直接检测光正交频分复用(Direct Detection Optical Orthogonal Frequency D
近年来城市出租车和滴滴等浮动车因提供灵活、便捷的出行服务给城市公共交通带来极大便利,同时因装载GPS等传感设备而产生体量巨大的时空轨迹数据。当前,如何应用这些时空轨迹数据来优化移动出行受到学术界和工业界广泛重视。本文聚焦于分析大量的历史轨迹数据,为乘客推荐最优的等车方案,并给司机推荐最合适的行车路线,改进乘客的乘车出行体验。论文主要研究工作如下:(1)通过分析出租车的历史轨迹数据,提出基于路段的等
学位