半监督子空间聚类研究

来源 :福州大学 | 被引量 : 0次 | 上传用户:laire723
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息技术的发展使得数据呈现高维化的趋势,而维度的增加会提升数据处理的难度,这一点在聚类分析中得以体现。由于高维数据的稀疏性和冗余性,许多传统的聚类算法在面对高维数据时会出现性能差的问题。为了解决这一问题,研究者们提出了许多新的聚类算法,子空间聚类(Subspace Clustering)就是其中比较有代表的技术之一。SubKMeans是一种基于K-Means的子空间聚类算法,其将原数据空间划分为一个包含有大量信息的聚类子空间和一个只含有少部分信息的噪声子空间。通过将数据投影到聚类子空间中进行聚类,能够有效降低噪声干扰,提升K-Means算法性能。但是SubKMeans算法是一种无监督的聚类算法,没有有效结合相关的背景知识,而大量实验证明监督信息的有效利用可以提升算法性能。针对这一情况,本文研究如何将成对约束信息结合到SubKMeans算法中。本文的研究内容及成果如下:1、在监督信息可用的情况下,本文引入成对约束来引导聚类,用于提升SubKMeans算法在半监督场景下的聚类性能,为此提出了基于成对约束的SubKMeans算法(SKMPC)。该算法首先针对重要性低的约束会干扰重要性高的约束的问题,进行约束选取。在选取到的约束集合中,考虑约束的满足度和正负约束对在子空间中的平均距离差,将其乘积作为约束项添加到SubKMeans算法优化函数中来达到限制投影矩阵的目的,并使用PCA中选择主成分的方法对聚类子空间维度m进行优化。实验结果表明加入成对约束和进行维度优化后的SubKMeans算法,比原算法具有更加优秀的性能,并且优于其它的半监督聚类算法。2、SubKMeans算法是对传统K-Means类算法的扩展,依然存在需要人为指定K值的问题。针对这一问题,本文基于现有的成对约束与轮廓系数的结合策略,提出了一种结合约束的轮廓系数,用于解决SubKMeans算法最佳聚类数确定问题。该算法将结合约束后的轮廓系数作为聚类有效性指标,使用聚类误差平方和SSE对K值的搜索范围进行优化,通过在优化后的取值范围内计算每个K值的指标值来比较出最佳K值。实验结果表明,改进后的轮廓系数能够更加有效的为SubKMeans算法确定聚类数量,并且K值搜索优化的策略能够有效缩小K值取值范围,大幅度减少算法运行时间。
其他文献
伴随着人工智能的兴起,越来越多人开始关注深度网络。通常,需要使用大量的数据样本对深度网络模型进行训练,才能得到较好的分类效果,但是很多应用场景中都无法获取足够的样本数量。为了解决样本数量匮乏的问题,专家学者们提出了少样本学习的概念。图像分类中的少样本学习的目标是在每类标记样本较少的情况下,对未标记图像进行正确的分类。目前基于度量的少样本学习算法在图像分类任务上已经获得很优异的性能。这类算法首先获得
学位
超大规模集成电路布线阶段是集成电路设计(IC设计)中的核心步骤,用于确定芯片中各个引脚的具体走线,对芯片最后的性能、功耗有着重大影响。超大规模集成电路布线问题是一个NP-hard问题。集成电路的集成规模不断扩大,问题逐渐复杂化,设计一个高效的布线算法难度也越来越大。布线设计一般采用两阶段布线设计,先全局粗化布线再局部细化布线。本文聚焦于全局布线问题的研究上,从2D和3D两个维度,分别提出了解决办法
学位
深度神经网络已广泛应用于各领域,成功解决了诸多复杂的任务,而深度网络的高效训练是其成功的关键之一。然而,由于相关理论基础薄弱,现有的网络训练方法仍存在诸多亟待解决的问题,这些问题严重阻碍了深度网络的进一步推广。随着技术的进一步发展,一方面网络训练中易于发现的诸如梯度消失等问题已经有一些较为成熟的解决方法,但另一方面也存在理论上会影响训练结果却又难以验证及解决的问题。内协变量漂移(internal
学位
随着集成电路规模不断扩大,时延显著增大并因此对芯片性能造成严重的负面影响。作为超大规模集成电路物理设计中的关键环节,层分配在决定布线方案的时延方面具有重要作用。同时,随着超大规模集成电路工艺发展,先进制程已引起了诸多领域的关注。在先进制程技术中,非默认规则线和通孔柱两项技术分别在优化导线时延和通孔时延方面具有可观的潜力。因此,将非默认规则线和通孔柱相结合可以构成一个相对完整的基于先进制程的线网时延
学位
影像记录设备拍摄得到图像,其尺寸大小一般由其设备参数决定,当用户需要将这种统一尺寸图像在不同尺寸显示设备下投放时,通常发生图像被挤压变形或者不完全显示,严重影响到图像传递信息的准确性和视觉展示的友好性。图像重定向是一种旨在处理图像与屏幕尺寸不适配的图像处理技术,因此,对于以上现实常见需求场景,图像重定向是一个不可或缺的图像处理环节。本文研究了经典和基于深度学习的重定向方法,首先对经典重定向方法中重
学位
辅助驾驶系统(Advanced Driver Assistance Systems,ADAS)是智能交通系统的重要组成部分,其基础算法模块包括车道线检测、跟踪和车前障碍物目标识别等。现有的基于嵌入式平台的辅助驾驶系统由于计算资源受限,尚不能满足实时性和准确性的要求。本文针对扬州市人工智能研究院的实际课题,以面向嵌入式平台的辅助驾驶系统作为研究对象,采用NVIDIA Jetson TX2作为计算平台
学位
复杂事物间的关联通常采用网络进行表示,随着网络规模的增长,事物的联系以大规模复杂网络的形式呈现出来,并行图计算就是将大规模复杂网络抽象成图再以并行的方式进行分析,通常采用图分区和图通信迭代技术。图分区是将图数据划分至不同的分区上;通信迭代的实现依赖于分布式图计算模型,在模型上执行图算法时需要多轮迭代,图上顶点之间会进行消息通信,是一种通信迭代过程。通信迭代时,每个顶点每次只传输一个消息的为单一的通
学位
多模态摘要旨在从文本、图像等不同的模态中精炼显著信息,并通过一种概括性描述来表示,近年来得到了国内外研究人员的广泛关注。目前的研究工作主要采用深度学习的方法,取得了瞩目的成果。但仍然存在一些问题:难以有效捕获图像中的关键目标特征;现有模型中需要优化的网络参数较多,导致训练时间较长;缺乏对图像内部噪声的屏蔽能力,导致模型难以准确刻画图像表示。本文针对上述问题展开研究,具体研究内容可分为以下三个方面:
学位
在纺织工业中,由于织机的机械故障、机器部件老旧、用于编织的纱线存在缺陷、布匹被过度拉伸或者表面存在褶皱等原因,加工出来的织物表面往往存在大大小小的瑕疵,严重影响到纺织工厂的生产效益。因此织物瑕疵检测成为纺织工业质量控制的重要环节。为了满足织物瑕疵检测模型需要具备高检测速度、高检测精度、低人工成本的实际需求,本文将深度学习方法应用到织物瑕疵检测领域中,研究并设计出适用于多种瑕疵类型与复杂纹理背景图像
学位
聚类算法是一种能将数据集中相似的点聚集起来的无监督学习算法。批量聚类算法虽然准确度较高,但不能有效利用上一次的聚类结果,每次运行都需要使用全部的数据集进行重新计算,导致资源浪费、耗时等问题。增量聚类指的是在新数据到达后,不必重新构建整个模型,只需要根据已经构建好的模型进行更新,这一特点非常适合于流式计算,但增量聚类算法准确度相对较低,并且无法满足流式数据需要实时处理的特点。流式聚类虽然能够实时处理
学位