论文部分内容阅读
粒度计算即信息的粒化处理,是关于信息处理的一种新的概念和计算范式,覆盖了粒度方面的方法、理论、技术等几乎所有的领域,是人工智能领域的研究热点之一。它模仿人类的思考方式,即人们能从极不相同的粒度上观察和分析同一问题,而且能够很快地从一个粒度世界跳到另一个粒度世界,往返自如,毫无困难,在知识发现等领域有着非常广泛的应用。数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。聚类分析是一个非常活跃的研究领域,是数据挖掘的主要方法之一。它是一种无监督分类:没有预定义的类。聚类通过观察式学习,将数据对象分组为多个类或簇,在同一簇中的对象之间具有较高的相似度,而在不同簇中的对象差别较大。其广泛应用于文本分类、金融分析、数据评估、基因研究及市场调查分析等领域。聚类和粒度具有天然的相通性,如何将粒度计算与聚类分析结合起来目前仍处于起步阶段,尚未形成一个真正系统的完整的理论框架。本文分析了聚类分析和粒度计算概况,探讨了聚类分析的粒度原理和基于粒度聚类算法的一般框架,并基于该框架,提出了一种基于网格密度的文本聚类算法,实验表明,本文所提出的算法是高效的,并且是可行的。最后从商空间理论和信息粒度的角度,分析了模糊聚类的相关问题,探讨了模糊聚类的典型算法和聚类分析的分层递阶结构,并实验分析模糊聚类在文本聚类中的应用。