改进模糊C-均值聚类算法的数据挖掘研究

来源 :兰州理工大学 | 被引量 : 4次 | 上传用户:huanzhonga
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会进步迅速不断加快,经济水平的日益提高。工业过程在信息化技术的引领下,整个生产过程出现了质的飞跃,在生产线上出现无人监督无人操作的现象。人们从体力劳动中脱离出来,更多的从事脑力的劳动,企业摆脱了高烟囱的时代。一方面,随着市场的竞争越来越激烈,企业必须从竞争中求得胜利,必须加强自身实力,而那些在实践过程中产生的数据则变得非常有意义;另一方面,企业在生产过程中往往是要通过这些数据作为企业追求利润和改良工艺的研究基础。因此,数据挖掘便随之而产生,它主要是从在数据库中提取企业或是事业单位所需要的信息,它是一种技术手段,然而这些数据集或是模糊的,或是随机比较强性,这种方法受到越来越多的关注。模糊C均值聚类算法是数据挖掘中应用比较广泛的算法之一,但是也存在着一些问题和不足。本文深入分析了模糊C均值聚类算法中的问题,主要完成了几个工作:1.模糊C-均值聚类(FCM)算法是主要是针对特征空间中的点集,普遍是适合于凸形数据集,而不适用凸形。但是在适用于非凸形的许多聚类算法中,同时处理高维数据,结果是比较差的。马氏距离是为了区别不同样本,根据通过样本到各类的距离,判断样本属于那种类别,它在非凸形数据集,高维数数据集中可以是使用。本文针对上述缺点,提出了一种基于马氏距离的改进FCM算法。2.针对FCM算法存在容易陷入局部极小值和对初始值敏感的缺点,提出了一种基于人工萤火虫(GSO)的模糊C聚类(GSFM)算法。该算法引入了全局寻优能力强的人工萤火虫算法来求得最优解作为FCM算法的初始聚类中心,然后利用FCM算法优化初始聚类中心,最后求得全局最优解,从而有效克服了FCM算法的缺点。3.针对过程工业数据变量多、数据维数高、非线性等特点,一般的数据挖掘算法无法解决这些问题。本文提出了一种基于局部平滑性通用增量流形(GIML)的人工萤火虫模糊C聚类(GSFM)算法。该算法首先采用局部平滑性的通用增量流形算法对原始数据进行增量降维,再应用人工萤火虫模糊C聚类(GSFM)算法对低维空间数据聚类。通过实验仿真,验证了本文提出算法的有效性和可行性。
其他文献
近年来,湖北省坚定不移地实施科教兴鄂、人才强省战略,教育投入大幅增长,办学条件显著改善,教育改革逐步深化,办学水平不断提高。但是,同时可以看到湖北省教育发展还不能很好
监狱信息化建设是个长期的事业,监狱人民警察信息素质的高低,成为监狱信息化建设能否顺利开展的限制条件,司法院校作为监狱人民警察重要培养基地,对警官大学生的信息素质教育
光纤作为一种新型的通信材料,对于通信方式的变革起着非常积极的促进作用。要想发挥光纤的优势,就必须要了解其传输特性,然后根据信号传输的需要进行应用上的调整。
目的:对子宫内膜腺癌的高危人群以及子宫内膜腺癌患者进行雌激素与代谢相关研究,寻找发生子宫内膜腺癌的预警标志,预防及防止子宫内膜腺癌的发生。方法:选取广西医科大学附属肿
研究性学习是近年来教育的热点,它有助于培养学生“自主学习、合作学习、探究学习”的能力。在英语课堂教学中开展研究性学习教学的理论依据是什么,可行性怎样,如何将研究性
财务报表作为财务管理的重要内容之一,在财务管理中起着统计、总结和指导等作用。尤其是在当下市场经济活跃的环境下,财务报表几乎成为企业财务工作的晴雨表,这是因为财务报
民主管理、参与管理是现代大学管理的主要趋势,大学生参与学校管理体现了大学管理的本质和主体性特征。大学应开辟各种渠道和途径让大学生参与到学校的各层管理中,以调动他们
<正>沃尔玛(WMT)和Kohl’s等零售商也已经开始对销售额、定价以及经济学、人口统计学和天气数据进行分析,藉此在特定的连锁店中选择合适的上架产品,并基于这些分析来判定商品
2014年8月,一款名为"××shenqi"的手机病毒在全国范围内蔓延爆发,它以手机短信为载体,一时间手机病毒引起了人们高度的重视。本文通过对手机病毒工作原理、传播途径进行分析