动态聚类新方法及最优聚类算法研究

来源 :扬州大学 | 被引量 : 0次 | 上传用户:elsie0709
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是将一批个体或变量按照它们的亲疏程度进行分类的统计分析方法。根据所采用的分类准则和过程的不同,聚类分析方法有很多类型,其中最主要的是系统聚类法和动态聚类法。相同的研究对象若采用不同的聚类方法可能有不同的划分结果,选择合适的聚类方法是获取最优聚类的基本保证。本文对几种主要的聚类分析方法进行总结介绍,分析各种方法的优点及其局限性。由于系统聚类法存在诸多缺陷且无多大改进余地,不宜将其作为推荐使用的聚类方法。而动态聚类比系统聚类有明显的优点,能在一定程度上实现优化或最优的分类。但动态聚类方法比较单一,其中的k-均值法也有明显缺陷,聚类效果并不理想。因此发展新的动态聚类方法为本论文的研究内容之一。本文提出了2种新的动态聚类目标函数——最小组内距离和最小组内平方距离。结合先前提出的最小组内平方和法,还可将不同目标函数相结合而衍生出多种混合目标函数动态聚类方法。新的动态聚类方法的提出,丰富了聚类方法,可满足不同类型数值分类的需求。 由于动态聚类对初始分类比较敏感,稳健性差,初始分类不同往往会影响聚类效果,聚类结果多数限于局部最优陷阱,所得分类结果并非最优。提供恰当的初始分类不宜作为最优聚类的前提条件,解决问题的关键是建立一种能在任意初始聚类条件下均可实现全局最优聚类的算法。 本文另一重要内容是提出了在任意初始分类基础上以较高可信度实现全局最优聚类的优化算法。新算法主要包含三个过程:收缩过程、扩张过程和合并分割过程。收缩过程获得一个优化但不一定为全局优的分类;然后通过缩张算法过程,跳出局部最优点;合并分割过程用于纠正类的错分,实现全局最优动态聚类。本文以Matlab平台编制了算法软件,以各种模拟、经典和实例验证了优化算法的功效。模拟和实例试验表明,新方法具有很好的聚类效果,能较大程度高效实现各种类型数据的全局最优聚类。 聚类分析中分类数目的确定也是一个未决的问题。本文对几个决定聚类数目的判断标准进行了比较分析,发现仿照信息准则函数(BIC)得到的准则(仿BIC准则)能较好地判断最适宜的分类数。以此决定合适的分类数,可减少人为决定的主观影响,使聚类结果更接近数据包含的实际信息,使聚类结果具有客观性。 本文的主要内容与结论为: (1)提出了新的动态聚类目标函数——最小组内距离和最小组内平方距离。结合先前提出的最小组内平方和法,还可将不同目标函数相结合而衍生出多种混合目标函数动态聚类方法。新的动态聚类方法得提出,丰富了聚类方法,可满足不同类型数值分类的需求; (2)提出了在任意初始分类基础上以较高可信度实现全局最优聚类的优化算法。新方法主要包含三个过程:收缩过程、扩张过程合合并分割过程。基本解决了动态聚类跳出局部最优陷阱的问题,增强了算法对不同复杂度分类对象的分类效果,从而提高了对一般聚类问题的普遍适用性。算法还对尽量减少运算负荷的问题进行了深入研究,提出了多种减少运算负荷的技术措施,以便适用于较大规模的聚类问题; (3)编制了显示动态聚类过程的程序,对低维(1~3维)数据,可显示聚类过程和结果,有利于使用者直观了解数据分布特征; (4)对于各种分布特征的数据,本文提出了新的判断分类数的标准(仿BIC准则),并与已有标准进行了比较分析,发现仿BIC准则能较好地判断最适宜的分类数,以此决定合适的分类数,可减少人为决定的主观影响,使聚类结果更接近数据包含的实际信息,使聚类结果具有客观性。
其他文献
In this paper we determine all tetravalent Cayley graphs of a non-abelian group of order 3p2,where p is a prime number greater than 3,and with a cyclic Sylow p-
We give a lower bound of the Loewy length of the projective cover of the trivial module for the group algebra kG of a finite group G of Lie type defined over a
本文通过对荣华二采区10
期刊
Let G be a finite group.It is proved that any class-preserving Coleman automorphism of G is an inner automorphism whenever G belongs to one of the following two
小麦贮藏蛋白主要由谷蛋白和醇溶蛋白组成,其中谷蛋白主要影响面筋强度。谷蛋白由高分子量谷蛋白亚基(HMW-GS)和低分子量谷蛋白亚基组成(LMW-GS).虽然HMW-GS只占小麦贮藏蛋白