聚类有效性指标结构分析及应用

来源 :天津大学 | 被引量 : 0次 | 上传用户:lhbneil
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类技术作为数据挖掘领域的重要分支,其目的是采用一定的手段(算法)将数据集划分为有意义的类(或簇),使得同一类内的样本在一定的标准(或规则)下相似性较高,而不同类的样本则表现较高的相异性。目前聚类技术已经在模式识别、生物医学、工业生产等诸多领域得到广泛的应用。聚类过程的算法选择和基于聚类有效性指标的聚类结果评估是聚类过程中最为重要的步骤。目前,国内外学者针对不同的数据集结构及应用背景提出了多种不同的聚类算法,其均有一定的适用性及局限性。聚类指标的有效性评价则对一个确定的目标数据集在不同算法下的聚类结果提出了一个量化标准,有助于评估不同算法表现的优劣性或者同一算法对不同参数的敏感性。本文在现有的聚类算法和有效性指标基础上,对近些年发展起来的谱聚类算法进行了分析研究,提出了基于NJW(Ng-Jordan-Weiss)算法的聚类评价指标,用以评估聚类的类数,另外,针对电学层析成像技术,提出了依据有效性指标进行聚类算法选择的方案。在本文中,作者主要做了以下方面的工作及研究:对现有的聚类算法和聚类有效性指标做了比较分析和分类描述,总结出若干典型聚类算法的应用背景及局限性;对近些年发展起来的谱聚类算法做了概述,并总结了现有谱聚类算法的基本流程,在此基础上提出了基于NJW算法的聚类评价新指标,该指标在人工数据集及真实数据集的测试中均验证了可行性,聚类准确性优于已有的指标;将聚类算法应用到了电学层析成像技术中,对样本数据集采用四种不同的算法聚类并成像,在Silhouette指标下进行了结果评价,选择出最优的聚类算法并与不同算法的重构结果进行可视化对比。证实了在电学层析聚类成像中依据有效性指标进行算法的选择是可行的和有效的。
其他文献
宝钢2030五机架冷连轧机组系德国西门子公司二十世纪七十年代产品。尽管是当时世界最先进的轧机设备,但是随着市场对产品质量要求的不断提高,其生产系统的装备水平已显得比较落
该文的主要工作集中在两个方面:第一个方面是可视化算法的研究方面;第二个方面是集成化的医学影像算法平台的研究与实现.该文工作主要内容包括:1)提出了一种基于单层表面跟踪
多相流现象广泛存在于自然界和人们的生活中,油水两相流是多相流的一个重要分支,在石油工业中尤为常见。油水两相流过程参数的精确测量是相关工业设备正确设计与安全运行的重
飞行机器人是一个极具挑战性的多学科交叉的前沿性研究课题.近年来,随着微电子技术特别是低价位的基于惯性测量元件的GPS/INS小型捷联惯导技术的发展,小型无人直升机这种具有
快速成型技术是一种全新的制造模式,但由于快速成型机售价高,技术难度大,很难得到推广和应用。基于这些因素,开展快速成型仿真技术的研究,既可以让一般的非专业人员形象地了解快速
针对空间用电源控制器工作环境恶劣,可靠性设计要求高的问题,本文提出一种对空间电源进行稳健设计和优化的方法。在电路设计上,各个功能模块通过电路仿真与试验,重点解决了母
随着现代信息技术的高速发展,在信号采集与处理领域中,由于数据量和传输速率的急剧增大,对硬件系统的性能要求逐渐变大,以奈奎斯特采样定理为指导的传统采样方式受到极大限制
本文研究的目的在于改进在钢铁企业中二维切割问题的优化模型。所做的主要工作在于加强模型所能表达的功能和针对优化问题的算法求解的改进。本文研究的二维切割问题是十分有
目前,矢量控制的思想在各个领域中都得到了广泛的应用,它通过坐标变换,实现了异步电机的解耦控制,从而达到了与直流电机一样的动态调速性能。在矢量控制系统中,磁链的准确估
ERP作为一种先进的管理思想和方法,将企业内部的资源包括人力、物料、设备、能源、资金、时间和空间等整合在一起,使得原来企业内部分散、孤立的“信息化孤岛”通过Intranet和I