论文部分内容阅读
随着科学技术的迅猛发展,各行各业产生的数据量越来越大,对海量数据进行分析处理获得有用的模式和对未知数据进行预测都成为各界关注的热点。模糊C均值聚类(FCM)是一种经典的聚类方法,尽管FCM及其改进的方法已被广泛地应用于很多领域,但在处理不完备数据聚类问题和类不平衡数据的离群点检测问题时仍存在很多不足。现有的不完备数据聚类方法主要有两种。一种是对数据集聚类之前直接去掉含缺失值的数据对象。该方法减少了数据量,但破坏了数据的结构和完整性。另一种是利用部分距离计算数据对象间距离。该距离仅考虑了已知属性值间的差异性。如果两个数据对象对应属性值其中之一未知,则其部分距离与两个相同数据对象(无缺失值)间的距离相等。显然,这种处理方法不能获得准确的聚类结果。本文在FCM聚类方法的基础上,通过构造不完备数据的邻域模型,提出了不完备数据聚类方法。为了解决类不平衡数据的离群点检测问题,提出了一种新的基于聚类的离群点检测方法。具体研究内容如下。针对模糊C均值聚类方法不能很好地处理含有缺失值的不完备数据聚类问题,本文通过构造一种有效的缺失数据邻域信息模型,并将其与优化完整聚类方法相结合构造了一种新的聚类目标函数,提出了一种基于邻域信息的不完备数据模糊C均值聚类方法(NFCM)。该方法将缺失值作为额外变量,运用拉格朗日乘数法,通过三层交替迭代方法,在估计缺失值的同时对数据进行聚类。将NFCM方法与四种常用的不完备数据聚类方法在三个UCI数据集上进行对比实验。实验结果表明,NFCM方法不仅能有效地预测缺失值,还大大提高了不完备数据的聚类效果。针对基于聚类的离群点检测方法对类不平衡数据无法准确检测离群点的问题,本文通过将类信息和类分散度引入到邻域模糊C均值聚类中,构造了一种处理类不平衡数据的聚类方法。该方法不仅考虑了类内数据对象分布不均匀问题,而且还能有效地解决类不平衡数据聚类问题。将数据对象及其邻域点的所属隶属值融入到局部离群点检测方法中,提出了一种基于分散度模糊C均值聚类的离群点检测方法(OCWFCM)。该方法给数据集中每个数据对象一个局部离群得分度量,按照top N原则,将离群得分最大的前N个数据对象作为离群点。将OCWFCM方法与常用的离群点检测方法进行对比实验,仿真实验表明了OCWFCM方法的有效性和优势。