论文部分内容阅读
随着信息技术的发展,数据挖掘的应用领域越来越广泛,传统的数据挖掘都是从静态数据库中发现知识,但是应用领域的数据大都是动态的,数据库中的数据都是随时间而变化的,采用聚类方法对数据进行聚类,如果每次数据更新后,都对数据集重新聚类,一方面是代价太大;另一方面,因未利用前一次聚类的有关信息,而导致了计算资源的浪费,因而,设计动态增量演化聚类算法以提高聚类效率成为必要。本文将人工免疫与分形理论应用于聚类,针对动态数据集提出了两种动态聚类演化算法。本文所做的工作和主要创新点为:(1)将核函数引入到人工免疫聚类中,提出了一种基于核函数的人工免疫动态聚类算法KAIDA,KAIDA通过核函数方法将数据映射到高维特征空间,在高维空间中计算新增抗原数据与已有记忆抗体之间的核空间距离,通过其与记忆抗体中心点识别半径的比较,决定新抗原数据是归到已有类中,还是对其形成一个新类。实验表明,KAIDA算法能有效的实现数据集的自组织动态聚类,且与相应的未引入核函数的人工免疫算法相比,能更好地减少非同类数据混合分到一起的数目,具有更高的分类准确率。为避免记忆抗体分布过于集中,且提高聚类结果的压缩率,引入了记忆抗体免疫抑制以优化算法,实验证明,优化方法提高了聚类结果的压缩率,增加了算法的合理性。(2)提出了一种基于人工免疫与分形的动态演化聚类算法,该算法考虑到分形聚类对初始聚类结果的敏感性,以及使用人工免疫核聚类方法对数据集进行聚类的高准确率,选用人工免疫核聚类方法对数据集进行聚类形成分形的初始聚类结果,选取密度大于密度阈值的类作为分形初始类,并计算各分形初始类的分形维数,在此基础上,利用分形局部与整体在结构或分布上具有自相似性的特点,将分形初始类以外的类按照合并后分形维数变化最小的原则合并到分形初始类中,这即为分形扩展聚类,实验表明采用基于人工免疫与分形的动态演化聚类算法对数据集聚类,结果准确率较高。