数据挖掘中聚类分析的研究

被引量 : 0次 | 上传用户：guanzheng52824

【摘要】

：

数据挖掘是一门新兴的技术，它以数据库技术作为基础，把逻辑学、统计学、机器学习、模糊学、可视化计算等多门学科的成果综合在一起，进行如何从数据库中得到有用信息的研究。数据

【作者】

：

郭军华

【发表日期】

：

2003年期

【关键词】

：

数据挖掘聚类分析异常数据模糊聚类

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

数据挖掘是一门新兴的技术，它以数据库技术作为基础，把逻辑学、统计学、机器学习、模糊学、可视化计算等多门学科的成果综合在一起，进行如何从数据库中得到有用信息的研究。数据挖掘技术得到了人们的普遍关注和广泛兴趣。聚类分析在数据挖掘研究中占有重要的位置。所谓聚类，是将一个数据单位的集合(数据源)分割成几个称为类或类别的子集，每个类内的对象之间是相似的，但不同类的对象间区别相对较大。聚类分析是根据事物本身的特性研究对被聚类对象进行类别划分的方法。聚类分析依据的原则是使同一类中的对象具有尽可能大的相似性，而不同类中的对象具有尽可能大的差异性；而聚类分析通常是在没有先验知识支持的前提下进行的。聚类分析要解决的就是如何在没有先验知识的前提下，实现满足这种要求的类的聚合。正是由于聚类分析的重要性和特殊性，近年来在该领域的研究取得了长足的发展，涌现出了许多聚类分析的方法，如划分聚类方法(Partitioning Method)、层次聚类方法(Hierarchical Method)、基于密度(Density—Based)的聚类方法、基于网格(Grid—Based)的聚类方法、基于模型(Model—Based)的聚类方法等等。这些方法所涉及的领域几乎遍及人工智能科学的方方面面，而且在特定的领域中、特定的情形下取得了良好的效果。但是当处理数据为大数据量、具有复杂数据类型的数据集合时，则仍存在若干尚未解决的问题。一个数据库中的数据一般不可能都符合分类预测或聚类分析所获得的模型。那些不符合大多数数据对象所构成的规律(模型)的数据对象就被称为异类(outlier)。以前许多数据挖掘方法都在正式进行数据挖掘之前就将这些异类作为噪声或意外而将其排除在数据挖掘的分析处理范围之外。但在一些应用场合，如各种商业欺诈行为的自动检测，小概率发生的事件(数据)往往比经常发生的事件(数据)更有挖掘价值。对异类数据的分析处理通常就称为异类挖掘。传统的聚类分析是一种硬划分，它把每个待辨识的对象严格地划分到某个类中，具有非此即彼的性质，因此这种分类的类别界限是分明的。而实际上大多数对象并没有严格的属性，它们在性态和类属方面存在着中介性，适合进行软划分。由于模糊聚类得到了样本属于各个类别的不确定性程度，表达了样本类属的中介性，即建立起了样本对于类别的不确定性的描述，能更客观地反映现实世界，从而成为聚类分析研究的主流。然而由于一般模糊聚类方法不适用于大数据量情况，难以满足实时性要求高的场合，因此其实际的应用不够广泛，故在该方面的研究也就逐步减少了。实际中受到普遍欢迎的是基于目标函数的方法，该方法设计简单、解决问题的范围广，最终还可以转化为优化问题而借助经典数学的非线性规划理论求解，并易于计算机实现。因此，随着计算机的应用和发展，该类方法成为聚类研究的热点。

其他文献

出版企业并购分析

随着我国市场经济体制的逐步确立，意识形态色彩很浓的出版业开始走向产业化。我国加入WTO，又带来出版业市场环境的改变。为了适应市场经济的要求，应对后WTO时代的挑战，我国需要进

学位

并购出版企业动因产业模式并购整合模式风险

麦粒灸“中风七穴”治疗急性脑梗死的临床研究

研究目的通过观察急性脑梗死患者麦粒灸“中风七穴”治疗后临床症状、NIHSS评分水平、Barthel指数量表评分、中风诊断与疗效评定量表及超敏C反应蛋白(hs-CRP)水平的变化情况,与常规西医治疗作对比,分析评价传统中医方法麦粒灸在急性脑梗死治疗中的优势和作用。研究方法收集急性脑梗死病例60例,随机分为两组,治疗组和对照组各30例。对照组予常规西医治疗:拜阿司匹林肠溶片100mg 口服qd,0.9

学位

急性脑梗死灸法“中风七穴”

物流配送中心作业管理系统模拟

随着市场经济的不断发展，商品流通规模的日益扩大，配送中心的数量也不断增加，配送业的竞争愈演愈烈。特别是在中国加入世贸组织之后，世界各大物流企业纷纷抢摊中国物流市场，使得我

学位

物流配送中心作业管理系统模拟管理决策

无刷直流电动机系统主电路保护与实现

针对无刷直流电动机控制系统IGBT模块工作在高开关频率情况下会产生高电压的问题,通过分析过电压产生机理,采用相应的对策,即设计相应的吸收电路,保护IGBT安全工作。介绍了工

期刊

无刷直流电动机IGBT过电压吸收电路

碳纤维布加固混凝土梁疲劳性能的试验研究

桥梁工程是公路和铁路的重要咽喉部位，确保其承载能力和正常使用性能是全线运行畅通的关键。随着交通荷载等级的不断提高，桥梁服役年限的不断延长，桥梁结构的病害不断增多，桥梁结

学位

钢筋混凝土梁疲劳碳纤维布加固

企业新产品评价的理论与实证研究

以原子能、微电子和新材料等为主要标志的第三次科技革命，使得现代企业发展战略重点放在“以产品开发为中心”上来，新产品开发关系到企业的生存与发展，新产品评价作为新产品开发

学位

新产品评价指标体系评价模型

GaInP2/GaAs/Ge双结级联太阳电池MOCVD生长和聚光器的制作研究

本文致力于用自制的低压MOCVD装置进行CaInP2/GaAs/Ge空间用高效级联太阳能电池制作的工艺以及聚光太阳能电池组件的研究。首先，介绍了国内外太阳能电池的研究现状及应用情况；

学位

CaInP2/GaAs/GeMOCVD级联太阳电池聚光太阳能电池菲涅耳线聚焦透镜

辛伐他汀联合阿司匹林治疗糖尿病肾病患者SOD、MDA水平及肾功能的影响

目的:探讨辛伐他汀联合阿司匹林治疗糖尿病肾病患者SOD、MDA水平及肾功能的影响。方法:选取2015年4月~2016年4月到我院就诊的糖尿病肾病患者76例,随机分成对照组和研究组,各3

期刊

糖尿病肾病辛伐他汀阿司匹林SODMDA水平肾功能

以梁启超的新闻理念反思中国大陆的当代报纸现状

梁启超作为中国新闻学的一代宗师,他的新闻理念影响了当时的新闻发展,时至今日,他的观点中仍不乏我们可借鉴之处。从梁启超关于报刊的性质功能说、新闻自由、新闻道德入手,来

期刊

梁启超新闻理念当代报纸

绵阳市中小企业信用担保融资的发展及思考

中小企业是推动国民经济发展，构造市场经济主体，促进社会稳定的基础力量。我国政府正在逐渐加大对中小企业的扶持力度，并从战略高度提出今后要把中小企业作为新的经济增长点来培

学位

保担中小企业信用担保信用担保体系

数据挖掘中聚类分析的研究

与本文相关的学术论文