论文部分内容阅读
聚类算法是数据挖掘算法中的重要方法。聚类应用非常广泛,无论是在商务上,还是在市场分析、生物学、Web文档分类等领域中都得到了充分的应用。目前聚类算法的研究焦点主要集中在:符号属性问题、算法效率问题、初值选择问题、对输入顺序的敏感性问题、最优解问题、算法对输入参数的依赖性问题。
模糊c-均值聚类(FCM)算法是最早的目标函数聚类算法,也是目标函数聚类算法中研究比较充分的算法。虽然模糊c-均值已有一些成功应用的例子,但仍旧存在薄弱环节和不足之处。
本文在分析了FCM算法和基于遗传聚类算法的不足基础上,研究了如何降低算法对初值和输入参数的依赖,自主进行全局搜索,找到全局最优解。提出了一种基于免疫单亲遗传和模糊c-均值的混合聚类算法。将免疫单亲遗传算法与FCM算法相结合,用此免疫单亲遗传聚类算法找到保持全局特性的聚类中心数目及初值作为FCM算法的初始值,进而继续进行局部搜索从而确保求得全局最优解。实验表明,该算法克服了FCM的局部最优问题以及普通遗传算法聚类时的搜索速度和聚类精度的矛盾。
利用此混合聚类算法对文本进行聚类,可以将文本归到多个类,充分体现出汉语文本的多样性和大量性的特点。