论文部分内容阅读
数据挖掘技术是当前的研究热点,聚类分析是数据挖掘技术中最经典、最常用的技术之一.聚类分析被广泛应用于许多重要的研究领域,如:气候研究、计算生物学、生物物理学、生物信息学、神经科学、金融以及经济.得益于现代自动监测技术的发展,研究人员能获得越来越多的数据.对于自动监测设备获得的数据集,数据样本总量和数据维度是可以获取的信息.但是,数据集的总类数一般都是未知的.现有的聚类方法大部分都需要输入参数,有些算法需要总类数作为输入参数.对于自动监测的数据集,研究者并不知道要输入什么样的参数值才得到满意的聚类结果.因此,无监督自适应的聚类算法更符合自动监测数据集的需求.基于这个背景,本文着眼于构造无监督自适应的聚类算法,并用之处理重要的现实问题.本文的主要内容从以下几个方面展开:1)提出裂变聚类算法(FC).基于自动监测数据集的背景,本文构造不需要输入参数也能有效执行的算法,特别是参数kc(k clusters).受原子裂变现象的启发,本文把聚类数据集当作最初裂变的原子,数据集包含的每一类当作裂变后得到的小原子,构造裂变聚类算法.为了研究数据分布空间的规律,先将数据集理想化,即第i类的边界点远离第j(j≠i)类的边界点.然后利用数据分布空间的规律提出裂变聚类算法,此算法可以自动确定数据集总类数kc,不需要输入任何参数也能有效执行.2)提出基于密度的自适应裂变聚类算法(FC-HD).为了让裂变聚类算法能适用于更一般的数据集:基于密度的所有数据集,本章先研究基于密度数据集的特点.一般情况下,基于密度分布数据集的各类中心样本点的局部密度大于各类边界样本点的局部密度.本章利用不同区域样本点的局部密度差异,构造自适应噪音(边界点)识别方法,并与前文裂变聚类算法结合,构造适用性更广泛的基于密度自适应裂变聚类算法(FC-HD).以基因序列数据和电信客户数据作基于密度自适应裂变聚类算法的现实案例分析.实验结果证明,FC-HD算法为健康信息管理和电信客户维护管理提供有效的方法.3)利用基于密度的自适应裂变聚类算法与预测方法结合,预测设备的使用寿命.设备剩余使用寿命的准确预测对生产活动有着重要的意义,设备寿命预测也是管理领域的研究热点.为了建立更准确的寿命预测模型,应当先筛选更有参考价值的失效样本来建模.因为同类设备在不同环境下运行,它们的退化过程会有很大的差别.随着自动监测技术发展,无监督、自适应的样本筛选算法是未来发展的需求.本章利用基于密度的自适应裂变聚类算法与相似性预测模型相结合,预测锂电池的剩余使用寿命;利用基于密度的自适应裂变聚类算法与SVR(支持向量机回归)模型相结合,预测风力发电机叶片的剩余使用寿命.4)提出基于路径的自适应裂变聚类算法(PBFC).自然界中的数据集,除了基于密度分布的数据集,还有其它分布类型的数据集.为了使裂变聚类算法能处理任意分布形状的数据集,本文利用Fischer的相似性测度函数来计算基于路径的样本相似关系矩阵.在此矩阵基础上,综合研究样本的分布密度、分布路径和分布形状,构造适用于任意分布形状数据的基于路径自适应裂变聚类算法(PBFC).人脸识别支付手段在当前的经济活动中开始兴起.重要人物的定位与追踪是信息管理的一个新研究热点.以人脸识别和其它图像数据作基于路径自适应裂变聚类算法的现实应用分析.PBFC算法能有效处理图像分割和人脸识别的数据,为重要人物的信息管理提供了新方法.本文受到原子裂变过程的启发,提出一系列新的自适应聚类算法,以此解决自动监测数据在聚类时一些算法参数无法设定的问题,并用之处理现实中的几个经典管理案例.新的自适应裂变聚类算法可将大数据集分裂成若干个较小的子集,从而简化大数据的处理难度.研究结果表明,本文所提的自适应裂变聚类算法的聚类性能优于当前其它聚类算法的性能,其时间复杂度更低,数据处理效率更高.