聚类成员生成以及带约束的聚类融合选择研究

被引量 : 0次 | 上传用户:chenjung00
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类融合首先生成一个包含多个不同聚类成员的聚类成员集,然后将其合并为一个更准确的共识分区。学者们普遍认为对于优质的聚类融合,其聚类成员应彼此不同,同时每个聚类成员的质量也应维持在一个可接受的水平。许多算法可用于生成不同的基聚类划分。与分类集成相似,诸多研究关注不同聚类成员的生成过程,例如对不同数据子集进行聚类(随机抽样)以及对不同特征子集进行聚类(随机投影)。然而,很少有研究关注这两种不同的抽样方法在质量和差异性上的性能比较。在本文中,我们提出了一种基于随机抽样的聚类成员生成新方法,通过寻找最近邻样本的方式来填补抽样时缺失样本的类别信息(简称为RS-NN)。我们通过与基于传统K-means的聚类融合方法、典型的随机投影方法(随机特征子集,简称为FS)以及另一种随机抽样方法(基于最近邻中心的随机抽样方法,简称RS-NC)进行对比来验证该方法的有效性。实验表明,FS总能取得更多样化的聚类成员集而RS-NC能取得较高的成员质量,我们提出的RS-NN方法则能在两者中合理地协调,在取得优异差异性的同时获得显著的性能提高。另外,为了追求更高的差异性,我们提出了一种基于RS-NN和FS的双随机抽样方法FS-RS-NN,该方法在保证一定质量的同时取得更高的差异性,并在不增加时间代价的前提下获得可比较的甚至更优的聚类融合效果。聚类融合已成为一个十分重要的数据分析工具,可以生成一个更强大更准确的共识聚类结果。现有研究表明,要得到较优的聚类融合结果,必须同时考虑聚类成员的质量和聚类成员之间的差异性。然而,很少有研究将其与先验背景知识结合起来。在本文中,我们首先对聚类成员的质量和差异性进行了简要的理论分析,然后提出了一个统一的框架来解决基于约束的聚类融合选择问题,其中样本之间的“必须连接”和“不能连接”约束作为给定的背景知识。我们将该问题转化为了一个联合优化问题,其中包含了基于给定约束的一致性、融合成员之间的差异性以及聚类成员的质量。该框架结合了两个决然不同却紧密相关的聚类主题:聚类融合和半监督聚类。我们研究了四种不同的聚类融合选择技术以追求高品质的聚类融合选择方案,实验充分说明了该框架的可行性和有效性。
其他文献
随着网络由传统互联网向移动互联网发展和转变,数字图书馆作为专业地向用户提供信息服务的机构,必须适应用户行为方式的转变,研究基于智能移动终端的图书馆服务。移动终端开
液压油管钳扭矩控制阀用于油管和抽油杆上螺纹时控制其扭矩值 ,以免扭矩过大而损坏螺纹或造成本体变形。介绍了该阀的结构、工作原理和技术参数。现场使用表明 ,该阀可限制油
目前,将油田生产污水经过处理后回注井下的流程在陆地油田的技术已经相当成熟,但对于海上生产油田,由于受平台空间的条件制约,常规的污水处理流程不能实现,因此在没有成熟流
规模化养殖业及饲料工业中的生态文明建设问题*张子仪一、前言21世纪将是人类面向重建生态文明(ecologiccivilization)净土的又一次万里长征。长期以来,在以人类为中心的“人定胜天观”,以及盲目无止境地
学校管理,是学校管理者通过一定的机构和制度,采用一定的手段和方法,带领和引导教职员工和学生,充分利用校内外的资源和条件,有效实现学校工作目标的组织活动。本文从以优质管理来
韩国已经成为山东省最大的经济贸易伙伴和最大的投资来源国,本文对韩国企业在山东省的投资现状进行了分析和研究,指出目前韩国企业在山东省的投资正处在一个大的加速发展阶段
<正>美国文学从诞生到现在只有200多年的历史,却有大量的文学作品出现,在这些文学作品当中,有一个主题却总是出现,那就是"美国梦"(American Dream)。美国梦一词最早出现在历
IT产业指IT生产产业,它是专门为信息经济提供IT类资本品和消费品、横跨IT制造与服务的新兴产业,这是美国信息经济的核心产业和经济增长的“火车头”。IT产业对美国经济的拉动
PHP语言是网站建设中常用的语言工具,网站后台建设是保障网站动态链接,及时更新的关键因素,网站建设必须重视网站后台建设,后台建设语言开发工具具有一定的发展历程,但现在应
<正> 印度,北部是克什米尔寒冷地带,南部是受热带海浪冲击的科摩林角,东部是原始森林覆盖的阿萨姆丘陵,西部是腊贾斯坦的半沙漠不毛地区。有喜马拉雅山系的高山峻岭,有平坦的