基于传递距离的度量学习和聚类算法研究

来源 :扬州大学 | 被引量 : 0次 | 上传用户：yus520

【摘要】

：

聚类分析是将一组数据集按照一定规律或者需求进行分组,是数据挖掘的核心问题之一。聚类算法的研究与发展主要依托两方面:度量学习和算法设计。谱聚类算法和层次聚类算法是聚

【作者】

：

戴天辰

【出处】

：

扬州大学

【发表日期】

：

2004年期

【关键词】

：

聚类算法度量学习传递距离高斯度量传递核映射 K-means二元属性

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

聚类分析是将一组数据集按照一定规律或者需求进行分组,是数据挖掘的核心问题之一。聚类算法的研究与发展主要依托两方面:度量学习和算法设计。谱聚类算法和层次聚类算法是聚类算法发展过程中两类较为经典的算法,这两类算法虽然能够对数据做出较好的划分,然而本文在实际研究中发现,这两类算法依然存在一些问题:谱聚类算法受到度量方法中尺度因子的困扰,同时在聚类过程中做特征分解时计算量过大;层次聚类算法无法处理离群点数据及形状复杂的样本数据。因此本文基于传递距离、传递核映射和K-means二元属性的原理,针对以上存在的问题进行了深入研究。本文的主要工作包括:1.基于传递距离的谱聚类算法谱聚类算法的聚类结果常常需要受到度量中尺度因子的影响,同时通过欧式距离度量出的样本间相似性也不准确。针对上述情况,本文提出一种基于传递距离的谱聚类算法用于数据样本聚类。该算法主要通过改进传统谱聚类中的度量方式,用基于传递距离的度量方式代替原先谱聚类算法中度量样本间距离的度量方式,接着通过最小生成树算法构建传递矩阵,利用该传递矩阵做指数变换得到相似度矩阵。最后用得到的相似度矩阵构建拉普拉斯矩阵,求特征值特征向量完成对数据样本的聚类。在人工数据集以及UCI数据集上的实验结果表明,基于传递距离的谱聚类算法具有较好的鲁棒性和有效性。2.基于传递核映射的K-means二元属性算法谱聚类算法在处理多尺度以及形状复杂类型的数据时,都能够得到较好的聚类结果。然而谱聚类算法却有着计算量大,在执行过程中需要做特征分解导致时间复杂度高达到0(nh)等缺陷。针对上述情况,本文利用了传递核映射原理,将样本数据映射至一个新的空间中,并利用K-means二元属性,在新空间中对映射后的样本直接进行聚类。在人工数据集以及UCI数据集上的实验结果表明,基于传递核映射的K-means二元属性算法具有较好的有效性和实用性。3.基于传递距离的层次聚类算法层次聚类中的合并法最能够体现聚类算法的基本原则,然而当样本数据集中样本数据形状复杂,或者样本数据集中存在大量离群点数据时,层次聚类算法不能获得正确的聚类结果。针对这个问题,本文将传递距离的原理运用进层次聚类算法中,通过对样本数据建立一个传递矩阵,接着在该传递矩阵中一一合并相同的类别,最终完成对样本数据的聚类。在带有离群点数据及形状复杂的样本数据实验中,基于传递距离的层次聚类算法有着较好的有效性和鲁棒性。

其他文献

高的抛晶玉进驻陶瓷总部

日前，高的抛晶玉正式进驻陶瓷总部基地。高的签约进驻了东区B03，设立企业营销总部，发最新产品、全面展示高的精品。修，计划4月份正式开业。并以总部展厅的面貌在此首随即将紧锣密

期刊

高的抛晶玉陶瓷总部基地品牌市场

船舶撞击作用下双柱式桩墩计算

船舶撞击力对桥梁的设计是一种特殊荷载。依据实例进行分析并提出了一种计算方法。

期刊

船舶撞击力桩墩双柱式桥梁荷载

高邑县政府考察团参观佛山金刚企业集团

本刊讯11月19日，河北省石家庄市高邑县县委书记杨国芳带领政府考察团一行10多人来到佛山金刚企业集团进行参观考察，董事长冯斌和佛山市陶瓷研究所有限公司总经理刘桔英进行了热

期刊

佛山市陶瓷研究所企业集团考察团县政府金高邑县河北省参观考察

一般地区扶壁式路堤挡土墙的设计

介绍扶壁式路堤挡土墙的特点、设计原则及预期的经济，社会效益。

期刊

扶壁式路堤挡土墙设计铁路

VOIP在现有网络资源的实现方式

通过分析VOIP技术的产生及几种典型实现方式,详细介绍一种新的更适合于现在网络资源现状的实现方式:V5-IP接入网模式,同时简单介绍该实现模式的网络解决方案.

期刊

VOIP技术软交换接入通信

旅游公路建设方案可行性研究

旅游公路兼具旅游与交通双重功能,其工程可行性研究也有着较为重要的意义与研究价值,旅游公路的建设对提高沿线地区的经济发展和旅游事业的发展都有着直接的带动作用。随着我国社会经济的快速发展,各地区之间的联系也日益紧密,公路作为不同地区之间有效联系的桥梁,其建设需求也越发突出。但是,由于公路工程项目具有建设周期较长、消耗资金较大、对沿线土地及资源环境影响较大等特征,使得公路建设的风险也相应的增大。因此,在

学位

旅游公路工程可行性研究交通量预测建设方案比选经济效益评价

盐碱地无土草皮卷生产的隔离层选择

通过在滨海盐碱地上生产无土草皮卷过程中比较不同隔离层（砖、河沙、报纸、河沙＋地膜）对高羊茅（Festuca elata Keng ex E.Alexeev）草坪草生长和品质的影响,结合综合隶属度对草坪品

期刊

盐碱地无土草皮卷隔离层高羊茅(Festuca elata Keng ex E.Alexeev)

日间高容量血液滤过在多脏器功能障碍综合征中应用的优势

目的探讨日间连续性高容量血液滤过在多脏器功能障碍综合征（multiple organ dys-function syndrome,MODS）中应用的安全性及治疗效果的评价。方法入选患者为安徽省立医院ICU2008

期刊

连续性血液净化死亡率连续性静静脉血液滤过连续性高容量血液滤过多脏器功能障碍综合征Continuous blood purification Morta

一维六方准晶材料有限板破坏力学行为分析

随着准晶材料的发现,其力学研究已经发展成为近年来一个广泛研究的新兴课题。本文主要研究了一维六方准晶的破坏力学行为,其中包括断裂力学反平面问题以及含微孔洞缺陷的损伤

学位

一维六方准晶压电效应本构方程断裂与损伤功能梯度材料

供应室护理带教工作存在问题分析及对策

供应室作为医院的后勤保障单位，肩负着整个医院无菌物品的供应和器械消毒的重任，它与临床科室的工作性质完全不同，是护生必须实习的科室。现将供应室护理带教工作存在的问题及对

期刊

护理带教工作供应室临床科室后勤保障器械消毒无菌物品工作性质医院

基于传递距离的度量学习和聚类算法研究

与本文相关的学术论文