联合聚类算法研究及应用

来源 :浙江大学 | 被引量 : 0次 | 上传用户：tbtbtb5518232

【摘要】

：

聚类分析技术以研究对象之间的相似性为基础,将具有类似模式的对象在茫茫的数据集中聚集成多个不同的类。多年来,聚类分析是被国内外专家学者深入研究和学习,提出了很多优秀

【作者】

：

王跃

【出处】

：

浙江大学

【发表日期】

：

2012年期

【关键词】

：

联合聚类非负矩阵分解 EM算法文本挖掘

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

聚类分析技术以研究对象之间的相似性为基础,将具有类似模式的对象在茫茫的数据集中聚集成多个不同的类。多年来,聚类分析是被国内外专家学者深入研究和学习,提出了很多优秀的方法,取得了很多不错的成果,使得这项效果显著、功能强大的数据挖掘分析技术得到了很大的发展。近年来,随着计算机技术的日新月异,互联网行业的飞速发展,数据信息越来越丰富,规模越来越庞大,人们逐渐的发现,传统的基于单一类型的聚类技术由于其自身存在的伸缩性能较差、处理多类型数据能力匮乏等缺点,已经越来越不能满足用户的需求。在这样的背景下,针对二类型乃至多类型数据的联合聚类技术应运而生。多类型联合聚类技术近年来吸引了越来越多的眼球,这项技术应用广泛,能在基因分析、搜索引擎、电子商务等多个领域发挥极大的作用,但其发展仍然有很大局限性和不成熟性。本文就此课题开展研究,主要做了四方面的工作：(1)简单的介绍了聚类分析技术的历史背景、研究意义以及国内外的研究现状,深入分析已有的聚类分析技术的发展情况,仔细剖析了这些技术的优缺点。(2)基于对这些已有的优秀的聚类技术的分析和理解,本文建立了一种基于EM迭代更新的非负矩阵分解(Tri-NMF)的模型,该模型结合了复杂谱图划分原理以及基于准则划分原理的长处,同时加入权重调整因子,使得模型在综合了两者优点的同时又能针对不同的数据进行灵活的调整。(3)在此模型的理论基础之上,建立了一套基于Tri-NMF模型的联合聚类算法族,囊括了二类型乃至多类型数据联合聚类的硬分析方法和软分析方法。(4)为了验证系统的有效性和实用性,本文抽取了两个标准数据集进行了充分细致的实验。实验结果显示,在准确率(AC)和归一化互信息(NMI)两个经典的被广泛采用作为聚类分析技术衡量指标的表现上,本文提出的联合聚类方法族都要优于其他几种已有的优秀的聚类分析技术。这些都证明了本文提出的基于Tri-NMF模型的联合聚类算法族的有效性和正确性,以及良好的伸缩性能,因此具有很好的实用价值和应用前景。

其他文献

梯级水光联合发电系统短期优化调度模型

为解决光伏电站出力可调度性弱的问题,充分挖掘已有梯级水电的调蓄能力,构建了梯级水光联合发电系统短期优化调度模型,实现梯级水光调度计划联合制定。该模型以梯级水电耗水

期刊

多能互补发电梯级水电站光伏发电短期优化调度可再生能源multi-energy hybrid powercascaded hydropower stat

抽水蓄能机组低水头工况分数阶PID控制及多目标优化

为提高抽水蓄能机组低水头工况下的控制品质,提出了一种基于精细化模型的抽水蓄能机组低水头分数阶PID(FOPID)控制多目标优化策略。首先,充分考虑过水系统、水泵水轮机等机构

期刊

抽水蓄能机组低水头工况分数阶PID粒子群算法多目标优化pumped-storage unitlow water head conditionfract

张同园从卫气营血辨治小儿外感发热经验

将小儿外感热病从卫气营血辨证论治。卫分证治以泄卫透表,方用银翘散或桑菊饮加减;气分证治以清解气热,病变部位主要表现在胃者,方用白虎汤加减,病变在肺者,用麻杏石甘汤加减

期刊

小儿发热中医药疗法辨证论治名医经验张同园

尼尔基左岸灌溉管闸门井滑框倒模设计与施工

阐述了滑框倒模模板施工工艺在尼尔基左岸灌溉管闸门井工程中的应用,提出了合理的模板设计方案,并通过对该方案施工全过程的介绍,得出该工艺施工质量好、耗材少、速度快、经

期刊

灌溉管闸门井滑框倒模设计与施工

基于GIS平台的大坝安全监控信息管理系统

基于GIS平台，采用ArcGIS Engine和Visual Basic语言设计，结合清江隔河岩水电工程研制并开发了大坝安全监控信息管理系统，提高了对大坝基础性状监测数据的实时提取分析能力，实现了

期刊

GIS大坝安全监控信息管理系统GIS dam safety monitoring information management system

葫芦岛市草原执法工作情况调查

草原作为陆地生态系统的重要主体，是生态环境稳定的保障。1982年土地资源普查时，葫芦岛市草原区划面积为559．2万亩（1亩≈667m^2），居全省第三位，占全省草原面积的1．1％。但近30年来，由于

期刊

草原面积葫芦岛市执法工作陆地生态系统生态环境资源普查草种

HVAC在科威特苏比亚配水工程C1标中的施工设计和应用

室内外空气计算参数的选取是影响HVAC设计的主要因素之一。给出了科威特与我国空气计算参数的比较,并对招标设计中主要设计变更及其原因进行了分析,阐述了承包商在进行HVAC投

期刊

HVAC空气计算参数施工设计配水工程HVAC air calculating parameters construction design water

数字化正畸修复联合治疗设计在前牙美学重建中的应用

目的:探索一种数字化正畸修复联合治疗的设计方法,并将其应用于前牙美学重建中,以提高医患沟通的效率及治疗效果的可预期性。方法:选取可能需通过正畸修复联合治疗解决前牙美

期刊

计算机辅助设计正畸修复联合治疗美学牙科

常规蛋白质芯片的构建方法及前景

蛋白质芯片是继核酸芯片后发展起来的一个新技术。和基因芯片一样,蛋白质芯片同样具有高通量、微型化及发现为导向这三大特点,二者最大的区别在于研究对象不同,后者主要应用

期刊

蛋白质芯片构建应用

利益相关视角下特殊儿童家长支持需求研究

近年来,特殊儿童数量不断上升,在特殊儿童康复过程中,家庭教育至关重要,但大部分的特殊儿童家长专业知识十分欠缺,不能准确识别患儿症状,经济压力和心理压力较大,成为患儿康

期刊

“特殊儿童”家长支持利益相关者需求

联合聚类算法研究及应用

与本文相关的学术论文