融合正则聚类的优化模型与算法研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:oicui
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是数据挖掘、机器学习以及模式识别领域的重要组成部分.其基本思想是基于数据点之间的相似性将一组数据划分为若干个不同的簇,且使得同一簇中的数据点相似性尽可能高而不同簇之间的数据点相似性尽可能低.聚类分析在许多领域都有着广泛的应用,如:图像处理、生物信息、社交网络等.经过几十年的研究,学者们提出了k-均值聚类、高斯混合模型聚类、谱聚类、子空间聚类等经典的聚类方法.这些聚类方法通常都需要在执行前输入聚类类别数,但是确定无标签数据集的聚类类别数是非常有挑战的任务.本文基于正则技术和回归方法系统地研究了不需要事先给定聚类类别数的融合正则聚类的优化模型、理论和算法.针对高维数据,我们提出稀疏组Lasso凸融合正则聚类方法.该方法具备同时进行数据聚类和特征选择的能力.在理论方面,借助于正则项的凸性和可分性,证明了稀疏组Lasso凸融合正则聚类模型的预测误差有界性和特征选择一致性.在算法方面,我们设计了半邻近交替方向乘子算法求解该模型并证明了其全局收敛性.最后,在合成数据集和基因表达数据集上的实验结果表明稀疏组Lasso凸融合正则聚类方法在聚类和特征选择上具有优异性能.对于凸正则项可能导致有偏估计这一不足,本文基于l0罚函数提出非凸非连续的l0融合正则聚类模型.在理论方面,我们分析了l0融合正则聚类模型最优解的存在性,并推导了正则参数的上界.然后,建立了该模型的Karush-Kuhn-Tucker(KKT)点,α-稳定点以及局部最优解之间的关系.此外,我们基于α-稳定点揭示了该模型的聚类机制,并证明不同的聚类中心之间的距离大于一个给定的阈值.在算法方面,我们采用交替方向乘子算法求解该模型,并证明其所产生序列的极限点是α-稳定点,也是局部最优解.最后,在合成数据集和真实数据集上的实验结果表明l0融合正则聚类方法具有出色的聚类性能.针对上述的l0融合正则聚类模型,我们设计了一种收敛速度快且计算复杂度低的二阶优化算法.据我们所知,这是非凸融合正则聚类框架下的第一个二阶算法.注意到l0融合正则聚类模型是复合行稀疏正则(c RSR)极小化问题的特例.为使研究结果有更广泛的适用性,我们系统地研究c RSR极小化问题的最优性条件、优化算法和应用.在理论方面,我们建立了该问题的critical稳定点,α-稳定点,强α-稳定点,局部最优解以及全局最优解之间的关系.然后,基于(强)α-稳定点推导出一个至关重要的稳定方程.在算法方面,我们基于此稳定方程设计了易于实现的牛顿算法,并在一些温和的假设下建立了该算法的二次收敛速率和迭代复杂度.最后,我们采用此算法求解l0融合正则聚类模型和趋势滤波问题.大量的实验结果说明所提方法具有很好的数值表现.
其他文献
随着移动设备和通信网络的发展,每天海量的视频数据被采集、传播和保存。视频已成为信息的主要载体,理解和分析视频中的人体行为具有重要的现实意义。行为识别作为视频理解的重要分支,旨在通过分析视频数据,利用特定算法,对视频包含的人体行为进行分析和识别。基于计算机视觉技术的人体行为识别算法是近年来的研究热点之一。计算机视觉技术通过模拟人类的视觉信息处理过程,赋予计算机感知环境的能力和人类视觉功能,为人体行为
学位
表格按照行和列的方式来组织数据,是一种非常有效的数据格式。表格数据广泛应用在人们日常的生产和生活中,如会议日程、财务报告和信用卡消费记录等。虽然人们可以很容易理解不同风格和布局的表格,但是对于机器而言,自动化地识别并理解各式各样的表格仍是一个不小的挑战。考虑到线上和线下文档中拥有着大量的非结构化表格数据(如图像文件和PDF文档),自动化的表格结构识别方法将有助于大规模的表格数据分析工作。较早的表格
学位
非饱和粉质黏土是一种寒区常见的冻胀敏感性土,其冻胀变形易诱发寒区路基变形、涵洞开裂、桩基上拔等工程病害,给我国寒区工程的建设和运营带来了极大的威胁。目前非饱和粉质黏土的冻胀机制研究存在两个瓶颈性问题:(1)目前的冻胀试验和模型研究大多针对饱和土提出,非饱和土的冻胀机制不明,缺少适合非饱和土的冻胀理论模型。(2)目前的冻胀试验方法缺少微观测量手段,无法对冻胀过程中水分迁移、分凝冰聚集生长、土体局部变
学位
随着新医改的推进,我国社会医疗保险发展迅速,医疗事业信息化水平也在不断提升。然而,随着医保制度改革的进一步深化,参保人数的逐渐增多和信息化的逐步深入,近年来出现了许多医疗报销行为不合理情况。这些行为违反了国家医疗保险相关的法律法规,通过虚构身体状况、隐瞒真实情况等,从国家医保机构、医院、社区诊所、药店等医疗行业机构骗取大量的医保基金,严重危害到了我国医保制度的完善和健全。同时经过多年医疗信息化及各
学位
移动机器人在军事、反恐以及应急救灾等领域的应用日益广泛,可显著降低人员伤亡率,并有效提升工作效率。提高移动机器人对于复杂地形条件的适应能力,使其在多种地形、地貌以及地质条件下均能获得高机动性能,是移动机器人领域的重要研究方向。本论文的研究目的是发挥基于空间单环过约束连杆机构的灵活性、少自由度和高可靠性的优势,探索在复杂地形条件下兼具强越障能力与高速机动能力的新概念移动机器人,揭示地面移动与越障的原
学位
文化自信是中华民族最基础、最广泛、最深厚的自信,是实现中国梦的必要条件,而文物古迹保护是文化自信的基本要求,文物古迹保护中最关键的一环即是古建筑木结构保护。在科技性保护的引导下,多学科背景的专业人员已经加入到古建筑木结构预防性保护工作中。结构工程专业人员已从机理研究和现场工作两个角度,对已出现多层次损伤的古建筑木结构本体进行保护。但在现场保护过程中,为评估鉴定提供数据支撑的健康监测技术却仍然处于起
学位
目前REBCO高温超导带材因载流能力大、结构强度高等特性已成为超导同步电机、超导磁通泵、磁控超导恒流开关等高温超导电磁设备的首选材料。然而,上述设备中的REBCO超导带材或线圈在交流磁场环境下进行直流电流传输时,会产生包含动态电阻损耗和磁化损耗的交流损耗。超导材料中的交流损耗严重影响高温超导电磁设备的稳定性、可靠性和经济性。此外,作为超导磁通泵和磁控超导恒流开关的一个关键技术指标,动态电阻的大小也
学位
多电平变换器适用于传统两电平无法满足耐压需求的中高压、大功率场合,如大功率牵引传动、高压直流输电。同时它们也越来越多地被应用在有高性能需求的低压系统,如光伏逆变器、风能变换系统和不间断电源。层叠式多单元变换器(Stacked multicell converter,SMC)作为一种典型的混合多电平拓扑,不仅继承了飞跨电容型多电平变换器输出电平易于扩展、等效开关频率高等优点,在相同输出电平数和电压等
学位
直齿圆柱齿轮作为载运工具中最常见的基础零部件之一,在铁路、公路和航工等重要领域中都起着至关重要的作用。由于其本身结构的复杂性及内外部激励的共同作用,使得齿轮系统是一种既包含非线性因素,又包含参数激励的弹性结构系统,在啮合过程中表现出复杂的动力学响应特征。另外,运行过程中极易出现由疲劳、过载和不良润滑等原因引起的局部故障,严重影响整个机械设备的工作效率和安全性。因此,对齿轮系统的非线性动力学行为和故
学位
支持向量机(SVM)是一个监督学习分类模型并广泛应用于文本分类,疾病诊断和人脸检测等领域.众所周知,0/1损失SVM模型是SVM理想的优化模型因为它极小化错分样本的个数.但由于0/1损失函数是一个非凸非连续的函数,使得0/1损失SVM是一个NP-难问题,并且关于0/1损失SVM的最优性条件和算法一直尚未被建立.本文通过分析0/1损失函数的次微分和邻近点算子,建立了求解0/1损失SVM原始模型的最优
学位