基于层次聚类识别数据集前n个全局孤立点

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户:ffcsyangchh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
孤立数据的存在使数据挖掘结果不准确,甚至错误。现有的孤立点检测算法在通用性、有效性、用户友好性及处理高维大数据集的性能还不完善,为此,提出一种有效的全局孤立点检测方法,该方法进行凝聚层次聚类,根据聚类树和距离矩阵来可视化判断数据孤立程度,确定孤立点数目。从聚类树自顶向下,无监督地去除离群数据点。在多个数据集上的仿真实验结果表明,该方法能有效识别孤立程度最大的前n个全局孤立点,适用于不同形状的数据集,算法效率高,用户友好,且适用于大型高维数据集的孤立点检测。
其他文献
深入分析了高校排课问题,建立了其数学优化模型,构建了它的基本求解框架。针对高校排课问题的特点,引入遗传算法来加以解决,设计了多种改进方案,包括:三维编码方案、初始种群
介绍系统循环码的定义及矩阵描述,分析其码重分布特性,根据向量间距离的概率定义码重分布距离,推导随机序列的理论码重分布概率,提出实际序列码重分布概率的估计方法和利用实
目的:探讨涤痰汤加减联合针刺辨治缺血性中风的临床效果。方法:选取2010年1月至2013年1月间收入的缺血性中风患者70例为研究对象共分成2组,对照组给予涤痰汤加减治疗,观察组在对
在圆弧的标准型有理二次贝齐尔表示的基础上,给出了圆弧的带参数的标准型有理三次贝齐尔一种更实用的表示形式,通过调节参数的值,就可以得到同一圆弧不同的标准型有理三次贝齐尔
为了深入理解供需网络的演化规律,研究了已有的复杂网络演化模型刻画供需网络生长过程的不足,提出了以星型网络表示初始网络,在局域世界中选择新增节点的连接节点,局域世界的选取
目的:探讨以心肾为本治疗绝经综合征患者临床症状改善作用及对相关理化指标的影响。方法:采用中药汤剂口服配合心理疏导的综合疗法对35例心肾不交型绝经综合征患者治疗前后进行
为解决信息系统在条件属性动态增加情况下的核属性更新问题,通过深入分析得到了一种二进制区分矩阵的等价表示方法;分析了新增条件属性对正区域和二进制区分矩阵的影响,得到
弱信号检测算法是高灵敏度GPS定位的核心,对低信噪比环境下的相关累加结合非相关累加、圆周相关累加以及差分相关累加捕获算法进行了理论分析,对信号捕获流程进行了讨论,重点对算法捕获性能进行了仿真。根据理论分析和仿真结果可以看出,所讨论的几种算法都能够在一定程度上提高接收机的捕获灵敏度,差分相关累加捕获算法更适合检测低信噪比环境下的GPS信号。
为减小传输流媒体业务时的速率抖动,提出一种平滑传输控制协议(Smooth Transmission Control Protocol)。该协议的速率控制主要在接收端实现:接收端不断检测丢包,如果发生丢包,
【正】 黑荆作为闽南工业原料林的主要开发树种之一,经亚林所、福建林学院和漳州林业局等单位历数多年的考证,由福建省林业开发总公司负责项目投资,闽南工业原料林联合开发中