数据挖掘中模糊聚类与聚类集成研究

被引量 : 0次 | 上传用户:guipian110
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据收集和数据存储技术的快速进步使得各组织机构积累海量数据,如何提取有用信息已经成为巨大挑战。数据挖掘技术应运而生,并显示出强大的生命力。聚类分析是数据挖掘任务中的重要分支。所谓聚类就是按照事物的某些属性,把事物聚集成类,使类间的相似性尽量小,类内相似性尽量大。传统的聚类分析是一种“硬”划分,它把每个待辨识的对象严格地划分到某个类中,具有“非此即彼”的性质,所以这种划分的界限很分明。但实际上现实生活中大多数对象并没有严格的属性,它们在形态和类属性方面存在着中介性,具有“亦此亦彼”的性质,因此比较适合进行“软”划分。模糊集理论的提出为这种软划分提供了有力的分析工具,人们开始用模糊的方法来处理聚类问题,并称之为模糊聚类分析。高维数据聚类问题被公认为较难处理的一种聚类问题。本文简要介绍了模糊集合和模糊关系概念,总结了模糊聚类的原则和通用的方法,讨论了常用的模糊聚类算法,在此基础上提出了基于图论的高属性维稀疏数据的模糊聚类算法。有效地实现对不同类型高属性维稀疏数据的归并,使得聚类结果更符合实际情况,聚类质量较高。由于聚类分析的重要性和特殊性,近年来该领域的研究取得了长足的发展,涌现出了许多聚类分析的方法。聚类集成方法将不同算法或在同一算法下使用不同参数得到的结果进行集成,从而得到比单一算法更为优越的结果。但绝大多数聚类集成方法的研究都集中在硬划分上,即研究如何对硬聚类算法进行集成,在模糊聚类算法方面尚缺乏建树。针对该种情况,本文提出了一种模糊聚类集成的决策模型。该模型同时考虑“专家决策”和“多数投票”机制将模糊c-均值(Fuzzy c-means,FCM)算法设定不同参数得到的不同结果进行集成,最后通过对人工数据集、UCI数据集及Web数据集等多组实验,验证了该模型的有效性。
其他文献
由语词或话语构成的文本与图像之间存在着非常复杂的关系,本文通过具体考察故事画,探讨了叙事图像与叙事文本之间错综复杂关系的一个方面:图像对文本的模仿或再现问题。文章
我国是水资源短缺的国家,水资源的人均占有量低,时空分布不均衡。随着人口增长、经济社会发展和城镇化速度加快,水资源形势日益严峻。一方面,一些地区严重缺水,水体污染加剧,
现代企业的核心竞争力主要体现在人力资源因素上。如何通过合理的机制吸引人才,培养人才,留住人才,已经是每个企业都非常关心的问题。对于人力资源的管理和激励,现在很多企业
特发性血小板减少性紫癜(ITP)的中医学病机为火热熏灼,迫血妄行;气不摄血,血溢脉外;瘀血阻滞,新血不生。中医证候呈现脾气亏虚、气血不足、热瘀互结的特征。中医治法为清热解
祈求现世利益、简化修行方法、打破清规戒律等,日本佛教表现出浓厚的实用主义色彩。神道的现世本位、日本民族尊崇人类自然天性的性格以及日本人轻思辨、重实用的文化传统深
为适应高等教育大众化快速发展和毕业生就业市场激烈竞争的需要,针对传统专业及其课程体系的陈旧僵化,临沂师范学院按"从出口往回找"的思路,重构课程体系和教学内容,优化配置
《智能建筑与智慧城市》(原智能建筑与城市信息)主要涵盖智能建筑、居住小区的楼宇自控、系统集成、安全防范、电子会议系统、火灾自动报警、综合布线、会议系统、数字控制、
为了提升闭环供应链网络的协同运作绩效,在市场需求和回收产品供应数量不确定环境下,针对由一个进行拆卸、检验的联合回收中心,多个进行制造和再制造的生产工厂,以及多个进行
作为一项重要的诉讼制度,回避制度既有其自身的价值,又为实现实体公正、构建和谐社会提供重要保障。本文结合我国相关立法及司法实践现状,思考刑事回避制度的完善,并提出明确