动态团最近邻居及其在离群检测和聚类分析中的应用

来源 :重庆大学 | 被引量 : 0次 | 上传用户:yy349764474
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为数据挖掘的重要分支,尽管离群检测和聚类分析已被广泛研究多年,现仍处于蓬勃发展阶段。在离群检测和聚类分析任务中,特别是局部离群检测和基于局部密度的聚类分析,最近邻搜索方法起着非常重要的基础性作用。但传统最近邻居搜索方法,如k-最近邻居(k-nearest neighbors,k NN)和逆k-最近邻居(Reverse k-nearest neighbors,Rk NN)等,它们简单但单一的近邻搜索方式难以适应形状和分布比较复杂的数据。因此,当数据分布比较复杂时,基于传统搜索方法设计的局部离群检测和聚类分析算法通常存在适应性和参数敏感性等方面的问题。为解决上述问题,本文提出了一种新的最近邻搜索方法并基于该方法开发新的离群检测和聚类算法。传统最近邻搜索方法在量化邻域时通常存在的适应性和参数设置问题,基于此,一种新的近邻搜索方法——基于动态团的最近邻居搜索方法,首先被提出。与以往最近邻搜索方法不同,动态团最近邻居搜索方法以动态的数据对象集而非固定且唯一数据对象作为参考搜索近邻。与传统最近邻方法相比,新搜索方法量化的邻域在没有任何假设性前提的情况下,具有更好的结构稳定性、适应性和参数不敏感性。利用新开发的最近邻居搜索方法的上述优势,本文分别提出了基于动态团最近邻居的局部离群检测算法和基于动态团最近邻居代表点的密度峰聚类算法。基于动态团最近邻居的局部离群检测算法不仅引入动态团最近邻搜索方法量化数据邻域,并且定义了新的局部异常因子用于量化数据局部区域含有离群点的可能性,算法最后根据动态团最近邻居的基本特征,可以非常容易地将离群点从各个异常区域分离开来。新的局部离群检测算法不仅适应于任意形状数据,大幅提高关于较复杂数据的离群点检测精度,还能同时识别离群点和离群点集,且在较大的邻域取值范围内具有很强的鲁棒性。同时,结合基于动态团最近邻居的局部离群检测算法的有效性和K-means的效率,提出了一个新的混合局部离群检测算法。该混合算法可在不显著牺牲检测质量的情况下处理较大规模数据的局部离群检测问题,且对K-means划分结果不敏感。在聚类分析方面,基于动态团最近邻居代表点的密度峰聚类算法首先利用动态团最近邻居代表点在很好反映原数据的基本特征的情况下,显著减少了数据规模。同时,引入动态团最近邻居重新定义了传统密度峰聚类算法中三个核心概念:局部密度,相对距离和决策规则,显著缓解了传统密度峰聚类及其变体算法在处理较复杂数据时,因假聚类中心而导致的聚类质量、参数敏感等问题。大规模聚类算法是当前数据挖掘邻域中的一个研究热点,研究者们一直致力于开发快速而有效的离群检测算法和聚类算法以处理较大规模数据集。本文结合代表点和局部密度思想提出基于代表点快速决策的大规模聚类算法。该算法以K-means划分的子簇中心作为代表点,并引入动态团最近邻居方法构建代表点稀疏邻域图,最后通过新设计的三点决策快速有效地划分该稀疏图并根据图划分结果标记数据。新的大规模聚类算法仅需线性的时间和空间复杂度,且无任何人为设置参数。上述方法经包括人工和真实数据在内的广泛实验证明了它们的有效性。
其他文献
煤矿综放开采条件下坚硬顶板时常诱发强矿压显现。其主要治理方法有爆破放顶、注水软化和井下压裂。该三种方法均在工作面的强矿压显现治理中发挥了重要作用。但爆破放顶存在诱发瓦斯爆炸和煤与瓦斯突出的危险;注水软化范围和效果有限,不能大面积降低矿压;井下压裂无法应用大型设备,且和爆破放顶与注水软化一样,钻孔长度短,只能控制近场的顶板,不能触及远场高位顶板,致使强矿压显现仍时有发生。因此,课题组提出了地面水力压
因特网技术的深入发展不断促进网络服务多样化演进,引发传统电信业务转型,尤其是4G技术的普及和5G技术的出现,通信领域的会话类业务呈现全IP化的过渡趋势,IP技术已逐步进入电信领域,网络化的信息交互方式是通信领域正在面临的重要转变。传统电信交互方式基于固定电路域线路容易建立明确、封闭、稳定的信任关系,而在新型交互模式下,通信会话基于开放网络环境建立,破除了传统电信线路基础,通信用户先前建立的信任关系
实时会话类业务是对网络双向传输性能敏感的业务,为了在互联网上取得满意的业务QoE,需要严格的端到端传输QoS保证。然而由于现有互联网大部分仍然采用分组转发及单径传输模式,端到端传输会受到随机的网络拥塞或故障的严重影响,并且无法充分利用承载网冗余的传输资源。由此多径传输被提出来优化传输性能,其优势是传输资源聚合以及健壮性,而直接影响多径传输性能的一个主要因素是承载网冗余传输资源的组织调度方法,相应的
随着社会发展,健康日益成为人们关注的问题。在疾病的诊断和分析方面,特别是肿瘤和神经退行性疾病,目前存在以下问题:医生进行诊断需要通过参考多个模态的医学图像并结合临床表征来综合诊断病人的病情,确定病灶,这需要大量的时间和丰富的经验;现有计算机辅助诊断多针对于单一模态图像,忽略了其他诊断参考数据。本文采取人工智能和影像组学来解决目前诊断存在的不足。通过近几年的发展,人工智能中的机器学习和深度学习日趋成
超高层结构易成为远场长周期地震动潜在发作区域内的主要受害对象,这意味着结构工程师在关于超高层结构的舒适性和安全性方面必须给予更多的关注和思考。尽管如此,限于远场长周期地震动复杂的地质构造因素,使得单从工程学角度较难准确地把握远场长周期地震动的特性及确定与之匹配的地震动输入,从而就超高层结构在这类地震动激励下所产生的问题并没有给出行之有效的应对策略。鉴于此,本文以远场长周期地震动孕育机制为出发点,由
研究背景抑郁症常伴发睡眠障碍,既往对抑郁症睡眠障碍的研究较少,睡眠障碍与患者病情的严重程度及预后有关。睡眠障碍不仅在抑郁症的诊断中具有重要意义,也是评估抑郁症患者治疗疗效的重要指标之一。然而,目前有关于伴有睡眠障碍的抑郁症患者的发病机制尚未明确,免疫炎性机制可能在其中起一定作用。近年来研究表明,微生物-肠-脑轴也可能在抑郁症和睡眠障碍的交互发病中起重要作用。研究方法本研究纳入符合国际疾病分类(Th
高镍三元正极材料LiNixCoyMn1-x-yO2(x≥0.6)由于其体积能量密度较高、电压高等特点,被广泛的应用于电动汽车、电动两轮车、物流车以及储能基站等领域。随着石油能源的消耗、环境污染等问题日益加深,人们的环保意识增强,助推了电动汽车在人们生活中的普及,因此高镍三元正极材料也随之成为了研究的热点。目前高镍三元正极材料,由于其镍含量高,导致了其循环性能以及倍率性能较差。这直接导致了电池装车后
热毛细流广泛存在于浮区法、提拉法等工业实践中,热毛细流失稳亦是近二十多年微重力流体物理和空间材料科学的重要研究内容。半浮区(液桥)模型和环形液池模型分别从浮区法和提拉法晶体生长简化而来,它们是研究热毛细流最广泛采用的模型。本文基于谱元法的线性稳定性分析针对半浮区模型和环形液池模型中热毛细流的失稳展开研究,同时将旋转磁场无限长模型、有限长简化模型、有限长Ф1-Ф2模型以及多极对非均匀旋转磁场Ф1-Ф
固体氧化物燃料电池(SOFC)能够直接将燃料的化学能转化为电能,是一种高效、清洁和可持续的新型能源转化装置。连接体作为SOFC的关键组件之一,起着连接单电池、分隔阴极和阳极气氛,以及传导电流的作用。随着SOFC技术的发展,其工作温度降低到600~800℃,使得部分耐高温的金属材料可以代替传统的陶瓷材料作为连接体。铁素体不锈钢(FSS)具有与电池其他组件相匹配的热膨胀系数(CTE)和可接受的高温抗氧
目前,心血管疾病(Cardiovascular diseases,CVDs)作为全世界范围内第一致残致死疾病,严重威胁人类健康,同时也给个人,家庭和国家带来沉重的社会负担和经济负担。动脉粥样硬化(Atherosclerosis,AS),是CVDs最常见的病理基础,深入研究AS发生发展的机制对于心血管疾病的预防和治疗具有十分重要的意义。大量临床研究发现,AS病变好发于动脉血管狭窄、弯曲和分叉处,这些