一种改进的基于层次的聚类和异常检测算法及其在数据挖掘平台上的应用

来源 :新疆大学 | 被引量 : 0次 | 上传用户:reefstone
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着各个企业、机构所拥有的数据急速膨胀,如何把这些数据转化为有用的信息和知识成为一个非常重要的研究方向——数据挖掘或知识发现。 数据聚类是数据挖掘研究的一个重要课题。聚类是将数据点集合分成若干类或簇(cluster),使得每个簇中的数据点之间最大程度地相似,而不同簇中的数据点最大程度地不同;从而发现人数掘集中有效的、新颖的、有用的利可以现解的模式利数据分布。聚类方法常见的有划分、层次、密度、模型和网格等。 异常(outlier)检测则是数据挖掘中一个崭新的领域,用来发现“小的模式”(相对于聚类),即数据集中显著不同于其它数据的对象,异常检测在电信利信用卡欺骗、贷款审批、气象预报、金融领域和客户分类等各种应用。 基于层次方法的聚类的基本思想足:根据给定的簇间距离度量准则,构造利维护一棵由簇利子簇形成的聚类树,直至满足某个终结条件为止。根据层次分解是自底向上还是自顶向下形成,层次聚类方法可以分为凝聚的(agglomerative)和分裂的(divisive)。人多数层次聚类算法在紧密簇或球形簇结构下能够产生较好的聚类效果。但是对于任意结构的簇对象或有孤立点的情况,通常的层次聚类算法可能会导致低质量的聚类结果。其主要原因在于人多数的层次聚类算法在度量簇问距离时采用的是基于质心的策略。 [GRS98]中提出了一种新颖的基于多代表点的层次聚类方法CURE。该算法选择基于质心利基于代表对象方法之间的中间策略,它不用单个质心或簇中全部对象米代表一个簇,而是选择数据空间中定数目的只有代表性的点,这些点代表和捕捉到了簇的形状。此外,由于引入了收缩因子使代表点向簇小心“收缩”而使该算法能够较好地消除孤立点的影响,在处理孤立点上也更加健壮。 本文继续了基于层次方法聚类的研究工作,把该方法用于数据聚类和异常检测,采用随机取样利划分两种方法结合,并将数据概化技术引入数据聚类和异常检测中,使之在一个实际的客户分析系统十得到了有效的应用,获得了较有价值的结果。具体来说,本文作了以下工作: ◆ 研究利探讨了当前各种聚类算法,重点研究了层次聚类算法,改进了大多数层次聚类算法不能很好地处理任意形状簇和孤立点的缺陷。 ◆ 剖析了CURE算法,改进了其在随机取样时的不足之处,并通过引入数据概化技术使之在一个实际的客户分析平台上得以实现利应用。 ◆ 研究和探讨了异常(孤立点)检测问题,分析了导致异常的某些原因,讨论了基于距离的异常检测方法,提出了利用分块来加快发现异常的速度以及初步把聚类和异常检测结合起来的思想。 ◆ 对聚类利异常检测算法中大量使用的采样技术进行了讨论,并提山了密度偏向的采样技术。改进了均匀采样技术在某些应用中的不足之处,采用这个密度偏向的采样技术比采用均匀采样技术具有更好的可扩展性和精确度。
其他文献
期刊
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
声乐教师基本技能的高低是决定声乐教学成败的关键。高师声乐教师的基本技能概括起来应包括教学能力、演唱能力和科研能力等。
放任在我国刑法理论中属于间接故意犯罪的意志因素.对于其含义,存在等同说、独立说、折衷说之争.但从放任的动态性和意志性来看,应当坚持独立说,即放任不应当包括不希望的态
七、脱险经过1949年11月27日,预感末日来临的刽子手举起屠刀,成批杀害各集中营的革命志士。但因上司规定要毁尸灭迹,特务人手少,整整一天都忙不过来。28日凌晨两点,特务们血
利用Sundcaram筛法,给出素数的表示,在此基础上得到了关于素和的判别定理和相应筛法。
2005年后将允许在我国设立独立的工程外资造价咨询企业,势必加剧国内现有咨询企业的竞争.文章从国内外咨询企业的组织形式、咨询服务范围、从业人员素质以及服务手段方面进行
日本成熟的家电零售业态或许可以给我们许多启示。日本电器之强不仅是在生产环节.而且还强在流通环节。可以说日本是零售业最成熟的国家之一.零售总额占到了GDP的近30%,经营基本
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技