论文部分内容阅读
聚类分析是数据挖掘中的一个重要研究领域,是一种数据划分或分组处理的重要手段和方法。目前其研究已深入到数据库、数据挖掘、统计等领域并取得了很大的成绩。聚类分析算法大体上分为:划分的方法、层次的方法、基于密度的方法、基于网格的方法和基于模型的方法。这些算法存在如下的问题:符号属性问题、算法的效率问题、初值的选择问题、对输入顺序的敏感性问题,最优解问题、算法对输入参数的依赖性问题。DBSCAN是一种基于密度的方法,该算法的显著优点是速度快,可以发现任意形状的聚类和噪声点。但是当数据量非常庞大时,该算法对主存要求较高,而且需要定义一个全局变量Eps,如果这个全局变量Eps定义的不好,将会影响聚类质量,尤其是数据分布不均匀时,因此DBSCAN对输入参数Eps是十分依赖的。论文在对DBSCAN算法不足的分析基础上,对DBSCAN算法进行了改进。从DBSCAN算法可以看出,全局变量Eps值影响了聚类质量,尤其是数据分布不均匀时。因此考虑对数据进行一个划分,每一个划分中的数据分布相对较均匀,根据每个划分中数据的分布密集程度来选取Eps值。K-means算法是一种基于划分的聚类算法,它把n个对象划分成K个类,其中的聚类数目k是输入参数,该算法是通过不断地迭代来进行聚类,当算法收敛到一个结束条件时,就终止迭代过程,输出一个聚类结果。但是由于K-means算法在选择初始聚类中心时是随机选取K个点,因此一旦这K个点选取不合理将会误导聚类过程,得到一个不合理的聚类结果。对K-means聚类算法中聚类结果对初始聚类中心的依赖进行了分析和尝试改进,对聚类中心的选取进行了改进。最后在这些工作基础之上,根据康定师专数学系2006级48名学生在2005—2006学年度7门学科的考试分数,采用聚类算法,对学生进行分类。