论文部分内容阅读
当今世界,数据每天都在迅猛增长。人们保存如此大量的数据,一是因为计算机技术的发展使之变得方便可行,二是因为这些数据有巨大的潜在作用。由此而产生的数据挖掘概念引起了广泛地重视,出现了许多与之相关的技术和产品。权威的Gartner调查组报告显示,数据挖掘将是今后几年全球范围内重点投资研究的十大新技术之一。本文从数据挖掘的概念入手,以数据结构的角度看待数据挖掘的研究对象,对数据挖掘的重要工具“聚类”做了深入的论述,把聚类分为基于数据元素的Q型聚类和基于属性的R型聚类。着重讨论目前各类文献涉及较少、而又有着重要应用意义的R型聚类,论述了相关的概念、技术和算法。最后介绍了一个实际应用系统——医生医疗质量评价系统。 文章在全面阐述数据挖掘、聚类、基于属性的聚类及三者关系的基础上,着重讨论了以下几个方面: 1.基于属性的聚类有力地支持了数据挖掘的一些重要性能的实现。 2.在聚类分析中应用的有关模糊集理论理论基础。 3.对基于属性的模糊聚类算法进行了比较详细的讨论。 4.探讨本课题未来的工作方向和面临的挑战。 概括而言,本文以数据挖掘工具中聚类分析的一般理论和技术为基石,结合目前实际应用,提出了一些新的观点及算法设计思路,并试图在理论和实践两方面作出论述。