论文部分内容阅读
随着信息技术和数据库技术的迅猛发展,人们可以非常方便地获取和存储大量的数据。如何从大量的数据中快速提取有用的和感兴趣的信息,成为海量信息处理面临的瓶颈。聚类分析技术作为一种重要的数据挖掘技术,经过近十年快速发展,已被广泛应用到人工智能、信息控制、医疗诊断、天气预报、图像分析等领域。在传统的研究中,人们一般总把样本看作特征空间中的点,认为模式的特征由数值刻画,因此主要的研究兴趣放在分析数据集中蕴含的信息和揭示点集内在的自然结构上,很少关心数据集的来源、表征形式及其他性质。实际上,在数据挖掘中我们经常会遇到这样一个问题:随着样本集的扩大,聚类分析的计算量越来越大,那么,如何对样本集有效的进行压缩、表征,以加快聚类分析的速度成为一个值得研究的问题.针对这个问题,本文开展了积极的研究,致力于寻找一种有效的针对混合特征的聚类分析方法,主要取得了以下研究成果:(1)提出了一种基于混合特征的模糊聚类方法。传统聚类方法很少对数据特征之间的关系以及数据特征与聚类结果质量进行分析度量,为此,我们深入研究了聚类一致性和聚类完全性的实现方法,并实现了一种有效的迭代计算方法。在此基础,我们发展了一种基于混合特征的模糊聚类算法,该算法首先利用特征分析对大样本集进行压缩,然后通过基于混合特征的聚类一致性和聚类完全性迭代计算,对特征样本展开有效的聚类分析,最后将有效的特征聚合在一起,形成了一种高效的基于混合特征的模糊聚类方法。(2)开发了一个基于混合特征的模糊聚类可重用软件模块:图像处理函数库、特征提取函数库、图像数据管理模块和基于混合特征的模糊聚类分析模块。该软件模块能够很方便的增加各类数据特征的提取操作,并构建聚类一致性和聚类完全性的混合特征集合,可以应用到各种复杂大规模的数据聚类分析应用当中。通过大量的数值仿真例子和实际遥感图像处理例子,我们验证了本文提出的基于混合特征的模糊聚类方法与传统聚类方法相比是一种高效的方法;将该方法应用到遥感图像处理中,可以从多个特征中筛选合适的特征,高效地进行遥感图像的聚类分析。