论文部分内容阅读
聚类算法作为一种无监督的分类手段,可以在缺乏先验知识的情况下,将数据有效地划分到不同的类簇,以发现数据中的共同特征和有用信息。然而,在现实应用的待处理数据中,通常含有大量的不确定性信息,许多数据对象具有亦此亦彼的特性,使用传统聚类方法处理这些数据将会造成较大的聚类误差,需要结合针对不确定性信息处理的方法对算法进行改进;另一方面,现有的信息粒化方法在对含不确定性信息的数据进行粒化时所生成的粒子也往往是互相交叠的,影响了信息粒子语义的清晰表达,也影响到后续问题的求解。粗糙聚类方法将具有不确定性归属关系的数据对象划分到边界区域,在对不确定性信息的处理方面具有明显的优势,但如何结合不同数据的特征对不确定信息进行有针对性的描述,探索有效的粗糙聚类分析算法以及基于聚类分析的信息粒化方法,依然是当前的研究热点。本文以粗糙k-means高效聚类算法研究→基于粗糙聚类的信息粒化算法研究→粗糙聚类在实际工业过程数据粒化分析中的应用探索为主线,探索不确定性信息的粗糙聚类与信息粒化方法,并探讨基于聚类分析的信息粒化算法在合成乙苯生产过程数据分析中的应用。主要研究工作包括:(1)基于边界区域局部模糊增强的πRKM聚类算法。如何对边界区域的数据对象进行度量与处理一直是粗糙k-means(RKM)及其衍生算法的主要出发点。πRKM算法通过在聚类边界中引入Laplace无差别原则,较好地解决了传统RKM算法对上、下近似区域权重系数的选择比较敏感、非竞争性的边界区域数据对象对于划分结果的影响会随着所属类簇数量的增加而增加等相关问题。然而,该算法没有考虑边界区域多个类簇的交叉程度以及边界区域数据对象的空间位置分布对聚类结果的影响。为了对边界区域的数据对象更好地进行描述,引入边界区域局部模糊度量的方法,提出了一种基于边界区域局部模糊增强的πRKM聚类改进算法。(2)基于区间-2型模糊度量的粗糙k-means聚类算法。现有RKM及系列衍生算法忽视了类簇间规模的不均衡对聚类迭代过程及结果的影响。引入区间2-型模糊集的概念对类簇的边界区域数据对象进行度量,提出了一种基于区间-2型模糊度量的粗糙k-means聚类算法。首先根据类簇的数据分布生成边界区域样本对交叉类簇的隶属度区间,以体现数据样本的空间分布信息;然后进一步考虑类簇的数据样本规模,在隶属度区间的基础上自适应地调整边界区域的样本对交叉类簇的影响系数。该算法削弱了边界区域对较小规模类簇的中心均值迭代的不利影响,提高了聚类的精度。(3)可信粒度准则下基于粗糙k-means聚类的信息粒化算法。在类簇边界交叉较为严重的情况下,使用常规的聚类粒化算法对数据进行信息粒化时,所产生的粒子也是严重交叉的。为了对边界交叉的数据进行有效处理,在粗糙k-means聚类算法中引入边界区域模糊化度量,并结合修改的参数版可信粒度准则,提出了可信粒度准则下基于粗糙k-means聚类的信息粒化算法。(4)粗糙k-means聚类粒化在合成乙苯生产过程中的应用。将可信粒度准则下基于粗糙k-means聚类的信息粒化算法应用于乙苯生产数据的分析。使用Aspen plus软件对乙苯生产流程进行模拟,探索乙苯产量、转烷基反应温度、烷基化反应温度和乙苯纯度之间的潜在联系,并对生产提出指导与建议。