论文部分内容阅读
数据挖掘技术作为数据间隐含信息提取、复杂关系发现及潜在价值评估的重要工具,近年来已经成为人工智能和数据库等领域研究的热点问题。通过数据挖掘提取和发现对人们有用的、对商业决策和未来规划发展具有支撑能力和指导作用的知识和规则。聚类算法作为通过将集中的数据人为的划成若干类从而揭示数据间的真实分布的一种统计学方法及数据挖掘数据预处理阶段的重要步骤,对于人们处理数据起着重要的作用。而模糊聚类分析作为使用数学方法研究数据分类的一种方法,近年来在数据挖掘领域得到了迅猛的发展,并在模式识别、决策分析、数据分类方面获得了广泛的应用。本文对应用最为广泛、最为灵敏的算法之一的模糊C均值算法(FCM)及基于核函数FCM算法(KFCM)进行了研究分析,针对KFCM算法在网络大数据挖掘中聚类密度、大小不均衡数据集上的缺陷,对其改进算法-MKFCM算法进行了详细介绍,并将其用于实际聚类分析中。针对KFCM算法使用单一固定高斯核函数对簇间变化不敏感,不能将密度、大小不均衡的几类簇分开的不足,MKFCM算法使用了更加灵活、适用的方法,在完全无监督的方式下,将一组被分配不同分辨率权重的核函数组合构成新的核函数代替单一核函数并通过核函数间的凸关系将数据点映射到高维特征空间,再利用核函数技术实现低维空间计算。重新组合的高斯核函数可以覆盖所有数据的频谱且不同的分辨率权重又可以反映出不同簇的分布,从而可以将密度、大小不均衡的几类簇很好的分开,具有明显的优势和可靠性。仿真结果表明,相对于使用单一核函数、平均核函数的KFCM算法不能将密度、大小不均衡的簇分开,使用由被分配不同分辨率权重的核函数构成的新核函数的MKFCM算法可以将其很好分开,而不会出现簇间重叠、交叉的现象,具有更好的聚类效果和聚类精度;将MKFCM算法应用到大学校园套餐定制中,为套餐变更提供理论支撑,仿真结果表明MKFCM算法可以将密度、大小差异很大的使用流量、短信数目及语音通话的三类簇很好的分开,从而与上季度指标对比分析出套餐侧重,为新套餐制定提供决策支持,从而证明了MKFCM算法在网络大数据挖掘实际应用中的的有效性和适用性,在决策支持及未来规划上的重要指导作用,在大数据时代数据挖掘领域有很好的发展前景。