对聚类及聚类评价若干问题的研究

被引量 : 39次 | 上传用户：gaoyunlonggao

【摘要】

：

聚类是数据挖掘中的一项重要任务,在很多应用中起着重要的作用。现在已经有很多成熟的聚类方法,每种方法的适用范围不尽相同。对于同样的数据,不同聚类方法得到的结果也不尽

【作者】

：

吕宗磊

【发表日期】

：

2009年01期

【关键词】

：

机器学习聚类假设空间模态逻辑代表点增量聚类

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

聚类是数据挖掘中的一项重要任务,在很多应用中起着重要的作用。现在已经有很多成熟的聚类方法,每种方法的适用范围不尽相同。对于同样的数据,不同聚类方法得到的结果也不尽相同。为了在具体的应用中选择最恰当的聚类方法,人们从不同的角度提出了一些聚类评价方法。然而不同的评价方法对于同一结果的评价并不完全一致,每种评价方法都有自己的适用范围。超出了方法本身的适用范围将会导致方法的失效。如何保证聚类及聚类评价的有效性成为聚类应用的一个关键问题。本文从聚类的基本概念出发对聚类及聚类评价中的相关问题进行了系统的研究,主要包括以下几方面内容:一、提出了聚类相似性的一般形式。根据聚类的概念,聚类是一个依据给定相似性对数据集合进行划分的过程。相似性是聚类的关键所在。距离、密度等许多种模型都可以用来表示相似性,但是这些模型所刻画的并不是相似性的本质。为了准确反映聚类的本质,本文首先对相似性的形式进行讨论;而后,从相似性的直观含义出发,只保留那些直观的、明确的性质,得出相似性的一般形式。二、构造了聚类假设空间。假设空间是机器学习的重要理论基础。为了进一步研究聚类相关问题,本文在聚类相似性一般形式基础上构造了聚类的假设空间。并利用聚类假设空间分析了导致聚类及聚类评价方法失效的主要原因。三、建立了聚类的模态逻辑表示方法。聚类相似性、数据集合、簇指派是聚类的三个重要组成部分。本文在聚类相似性一般形式基础上将聚类对应于模态逻辑中Kripke语义结构,进而通过模态逻辑公式对聚类的结果进行表示,为深入分析聚类及聚类相关问题建立了理论基础。四、提出了具有通用性的聚类评价方法。本文采用模态逻辑公式对聚类结果中各个数据所反映的信息进行刻画,根据数据反映的不同信息,本文提出了一种基于模态逻辑的聚类代表点方法。在此基础上,本文进一步提出了基于代表点的聚类评价方法,这种方法不受相似性计算方式的限制,具有较强的通用性。此外,代表点本身除了可对聚类结果进行定量的评判外,还可以给出有关聚类结果的定性分析。五、提出了增量聚类的风险理论及评价方法。聚类可以看作是归纳学习,而归纳有“失真”的风险。本文提出并证明了归纳应该就近进行的原则。聚类的模态逻辑表示方法不但有助于常规聚类的评价,还可以用于对增量聚类的评价。不同增量数据中所反映的不同逻辑公式表明了该数据进行归纳的风险。通过降低归纳风险可以得到较好的增量聚类结果;而通过计算增量聚类结果的归纳风险则可以对增量聚类的结果进行评价。最后,本文通过具体的应用实例进一步验证了以上内容。其中合并小样本的应用中分别验证了聚类假设空间的可行性及在此基础上构造的聚类评价方法;航班延误定级应用验证了基于代表点的聚类评价方法的可行性,以及该方法所得到的定量与定性双重结果在实际工程中的应用价值。

其他文献

汉语象声词的语义与标写形式

从形与义的角度来看,记录象声词的字其偏旁与所指称对象之间有着密切关系。我们往往可以从其偏旁看出其指称对象,甚至感知其词汇意义。由于诸种因素的影响,象声词的标写形式

期刊

汉语象声词标写形式

癌症长期存活者心身状态的研究

目的了解癌症长期存活者的心身状况、心理应对及调节方式及其癌症高危因素,探讨其共同的心理应对调节特点及康复治疗上的共同经验。探索癌症的社会-心理-生物综合康复治疗新

学位

癌症长期存活者心身状况

中美选秀真人秀节目比较研究

“选秀真人秀”节目因其互动性和全民参与性成为真人秀节目中最有影响力的部分。2004年“选秀真人秀”由西方植入中国,经历了初期的火爆,2008奥运年的整顿和沉寂,从2009年至

学位

中美选秀真人秀比较研究文化发展

基于无线网络的智能输液控制系统的研制

基于无线网络的智能输液监控系统是一种新颖实用的输液监护系统,静脉输液是临床医学重要的治疗手段,在输液过程中,若药液接近滴完或因某种事故使输液速度过高或过低时,需要医

学位

输液无线网络光电检测远程监控通讯协议

高新技术企业无形资产的价值相关性研究

随着知识经济的蓬勃发展,产品和劳务价值中所包含的无形资产价值比重不断上升,无形资产在社会经济活动中的作用日益突出,无形资产成为价值创造的决定性因素。高新技术企业作

学位

高新技术企业无形资产经营绩效市场价值价值相关性

文丘里湿式除尘器在火电厂中的应用国外文丘里湿式除尘器简介

<正> (一)文丘里除尘器概况据国外资料介绍,它是湿式除尘器中效率最高的一种除尘器,其除尘效率可以与电气除尘器相比。但其综合费用几乎是各类同效率级除尘装置中最高者。文

期刊

文丘里湿式除尘器焚化炉火电厂除尘效率文丘里管

无效婚姻制度研究

结婚制度是婚姻家庭制度的重要内容,无效婚姻制度又是结婚制度中不可缺少的一部分,无论是国外的婚姻法或民法典亲属编,还是我国古代的婚姻家庭法律制度都有关于无效婚姻的规

学位

无效婚姻比较研究现状缺陷完善

新疆高校课外篮球活动现状的调查研究

篮球运动自从1895年传入我国以来,经百余年的发展现已风靡全国,成为参与人数最多的体育项目。这与孕育它的学校篮球有着密不可分的联系,而高校篮球作为学校篮球运动开展的最

学位

新疆大学生篮球现状

对诉讼权利平等原则有关问题的思考

诉讼权利平等原则是我国民事诉讼法中确立的一项基本原则。检视我国相关法律不难发现:对被告提交答辩状行为的随意性规定;在撤诉问题上对被告权利的忽视;对法院依职权主动收

期刊

诉讼权利平等原则程序公正

现代转炉炼钢技术(一)

简要回顾了转炉炼钢技术的发展历史 ,并对转炉炼钢的重要技术进行较为详细的描述。这些技术包括铁水预处理、转炉基本操作工艺及品种质量、计算机控制炼钢、顶底复合吹炼、溅

期刊

转炉炼钢工艺技术

对聚类及聚类评价若干问题的研究

与本文相关的学术论文