【摘 要】
:
聚类分析是数据挖掘领域中重要的研究手段之一,其主要目标是在没有先验信息的情况下,把一个数据集的样本分为不同的类别,使得同一类内的样本相似性尽可能地大,而不同类内的样本差异性尽可能地大。聚类具有无监督学习特性,所以在众多领域都得到广泛的应用。然而,传统的聚类算法受“维度灾难”的影响,处理高维数据时往往性能不尽如人意。子空间聚类算法是传统聚类算法在高维数据上的扩展,基本思想是将原始数据空间分割为不同的
论文部分内容阅读
聚类分析是数据挖掘领域中重要的研究手段之一,其主要目标是在没有先验信息的情况下,把一个数据集的样本分为不同的类别,使得同一类内的样本相似性尽可能地大,而不同类内的样本差异性尽可能地大。聚类具有无监督学习特性,所以在众多领域都得到广泛的应用。然而,传统的聚类算法受“维度灾难”的影响,处理高维数据时往往性能不尽如人意。子空间聚类算法是传统聚类算法在高维数据上的扩展,基本思想是将原始数据空间分割为不同的子空间,从子空间中寻找不同类别存在的可能性。然而,子空间聚类算法存在难以保持数据非线性和局部几何结构的问题,针对这些问题,本文对基于自表示的子空间聚类算法展开研究,主要研究成果如下:(1)已有的比例缩放单纯形表示子空间聚类算法采用约束系数矩阵向量和,来保证系数矩阵的稀疏性,然而,该算法对数据的局部几何结构考虑不足,针对此问题,提出基于比例缩放单纯形表示和图正则化的子空间聚类算法。在原有的算法框架下,引入图正则化项,利用拉普拉斯特征映射进行流形学习获得数据局部几何结构,再利用近邻图影响系数矩阵的生成。采用交替方向乘子法对模型进行求解,在人工数据集、UCI数据集和图像数据集上的实验表明,所提算法有较好的性能。(2)块对角表示子空间聚类算法提出k块对角正则项,直接约束系数矩阵的块对角结构。然而,该算法强制系数矩阵等于其转置矩阵,使得系数矩阵满足正定对称的条件。因此,样本点损失自表示能力,导致该算法对高维数据的聚类效果较差。针对该问题,提出基于块对角表示的二次规划子空间聚类算法,引入二次规划正则项约束系数矩阵正定,增强系数矩阵的块对角结构和稀疏性。在不同数据集上的实验结果验证了基于块对角表示的二次规划子空间聚类算法对聚类问题的有效性。
其他文献
新型下一代网络体系——“智融标识网络”中,智融路由器发挥着关键作用,它的可利用带宽大、负载流量高、传输质量稳定。随着智融路由器应用场景的日渐丰富、用户数量的逐步扩大,其轨迹数据的规模也迅速扩展,然而目前仍缺乏针对设备轨迹数据进行分析的平台,这也为管理设备的轨迹数据带来挑战。依托于移动互联网的发展,基于位置的服务(LBS)得到蓬勃发展和广泛应用,LBS旨在利用现有的定位技术,为设备或用户提供与定位相
在激烈的市场竞争环境下,库存对于空调行业来说是一个矛盾体,保有库存一方面可以快速满足消费者的需求,但过量的库存也会占用企业资金,增加库存成本。此外,随着互联网技术的进步和电子商务的发展,空调企业也在不断开拓线上业务。在这种情况下,A公司作为国内主流的空调生产厂商,也顺应当前的发展趋势,建立了庞大的线上销售体系。但A公司目前的线上渠道库存控制效果并不理想,常常在保持较高的库存水平的同时还面临较高的缺
随着营商环境的改善和政策支持,B2B电商平台渠道逐渐完善,依靠多年行业深耕和产品精研,品牌效应良好,专业服务到位,拥有稳定型客户源。同时线上采购操作规范性强,有效规避贪污腐败现象发生,节省客户内部审计工作量,吸引着线下资源转移到线上渠道。消费类B2B电商衍生平台最初以个体消费者为服务对象,通过B2C业务起家,积累供应商资源和品牌知名度。当拥有一定市场占有率时,将业务延伸至企业客户,搭建B2B电商平
最近几年,深度学习在图像识别、语音识别和自然语言处理等领域取得巨大成功。深度学习模型所取得的这些成就往往都依赖于大规模的训练数据,然而构建大规模数据集不仅成本高昂,而且在诸如医学领域等某些细分场景下甚至是不可行的。因此,利用少量样本去进行模型学习的小样本学习逐渐被研究人员关注,成为近期人工智能领域的研究热点。小样本图像识别技术旨在从包含较多训练样本图像数据的基类中迁移有用的知识来帮助模型识别带标签
随着城市机动车保有量不断增加,交通拥堵问题日益严重,极大降低了交通系统的运行效率。交通状态识别作为交通控制和诱导的前提,能够有效缓解交通拥堵,因此对其进行研究具有重要意义。本文以信号控制交叉口作为研究对象,根据它的交通特性,建立了交叉口交通状态模式识别模型,并基于识别结果,制定了信号配时方案。本文通过绘制交叉口交通流的时序图,发现其存在波动性和周期性,并根据这种规律建立了交叉口交通状态模式识别模型
磁场传感器因其在导航、车辆、电流检测、信息存储等领域的广泛应用而受到越来越多的关注。近年来,光纤磁光传感器因其具有检测灵敏度高、成本低、体积小、制造工艺简单、抗电磁干扰等显著优势而受到广泛关注。在现有的测量方法中,依附于磁敏材料上的光纤磁场传感器被认为是一种很有前景的方法。然而基于光纤光栅的磁致伸缩材料存在热膨胀,可能会导致明显的测量误差。本论文首先对磁场的温度效应做了深入研究,并提出了基于双光栅
近年来,我国铁路事业发展迅猛。在我国运营线路中单线铁路占比仍然较高。单线铁路列车调度是一个非常复杂的问题。列车运行能耗是铁路的主要能耗。随着社会发展节能降耗越来越受到重视。本文从节能角度对单线铁路列车调度问题做了一些研究,主要内容如下:(1)首先研究了内燃机车运行能耗计算方法。依据列车动力学模型和《列车牵引计算规程》分析了列车能耗计算过程,并进一步拟合了列车速度、机车功率、牵引重量与能耗之间的关系
随着科技的发展,机器人在人类生活中的应用领域不断扩大,包括服务、娱乐、医疗和军事等。双足机器人具有类人的结构和外观,对环境适应性强、灵活性高,可以代替人类完成很多危险性任务,比如防火救灾、环境侦查等。而如何让双足机器人实现高速度、低能耗的稳定运动,是目前机器人领域的研究热点之一。非洲鸵鸟(以下称为鸵鸟)作为目前世界上奔跑速度最快的两足动物,其腿部粗壮有力,能够实现持续的高速运动,此优越性对双足机器
随着社会经济与科学技术的高速发展,低碳的理念不断深入人心,动力电池因其在电动汽车、城市轨道交通以及储能方面的应用,越来越受人们的关注,逐渐成为了现时代的研究重点。动力电池的普遍应用,使得动力电池的需求激增。动力电池大批量生产完成后,出厂前,需要对电池进行检测,要求对动力电池输出的电压、电流、电池容量、荷电状态以及电池参数能够准确测量;本文针对动力电池检测实验,设计动力电池参数测量系统。本文通过介绍
近些年,随着我国高速铁路事业的快速进步,高速动车组的行车安全性受到广泛关注。高速电气化铁路牵引网采用分段换相供电方式,频繁的车载断路器合分闸引起操作过电压与励磁涌流、高速动车组进出分相区引起分相过电压,会造成车载高压设备绝缘加速老化、性能降低,会危害高速动车组的安全运行、牵引供电系统中各电气器件的稳定操作,严重时可导致牵引变电所馈线跳闸误动作。因此本文针对高速动车组过分相区的暂态过程进行分析研究,