基于自然邻居和边界点检测的聚类算法研究

来源 :大连海事大学 | 被引量 : 0次 | 上传用户:lszh123321
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是机器学习中无监督机器学习的一个重要分支,也是多元统计分析的方法之一。聚类分析需要将数据集划分为几个不同的子类,并且同一类别中的样本尽可能地相似,不同类别中的样本尽可能地不同。随着信息技术的高速发展,数据的维度和复杂度也爆炸式增长,给聚类分析带来了新的挑战。事实上,现实生活中的真实数据集通常是高维非线性的,数据具有独特的内部关系,呈现出复杂的多流结构。因此,如何在保留数据集的典型特征的基础上,挖掘数据之间的潜在分布规则,获得更有效的聚类结果,是数据挖掘领域的一个重要研究方向。针对流线型数据集的聚类问题,密度峰值聚类(Density Peaks Clustering,DPC)算法的聚类结果显然是不合理的。虽然带有噪声应用的基于密度空间聚类(Density-Based Spatial Clustering of Applications with Noise,DBSCAN)算法对数据集的适应性更强,却面临参数选择的问题。因此本文将自然邻居搜索与边界点检测相结合,提出了两个改进的算法,主要研究内容如下。针对流型数据没有聚类中心的特点,本文提出了一种基于自然邻居的去边界聚类算法(Natural Neighbor Clustering Algorithm Without Boundary,NNC-wbo)。该算法首先通过自然邻居搜索算法,获得自然邻居特征值以及自然邻居关系矩阵,将搜索稳定状态下没有自然邻居的数据标记为噪点。然后结合局部异常因子检测算法提出组内离群度的概念,通过计算每个样本数据的组内离群度,将数据标记为核心点或边界点。最后利用核心点的自然邻居关系进行聚类。实验证明NNC-wbo算法可以有效识别流型数据集的边界点,并且在人工数据集和真实数据集上均获得了良好的聚类结果。多数情况下自然邻居搜索算法会在第一次自然邻居关系矩阵不再发生变化的情况下终止算法,这就导致某些稀疏位置的数据被误判为边界,导致聚类精度下降。因此本文又提出了一种基于自然邻居扩展组的改进边界点检测聚类算法(Improved Clustering Algorithm for Boundary Point Detection Based on Natural Neighbor Expansion Group,INNEG)。该算法在获得自然邻居特征值后,扩大搜索范围获得更多的数据结构。然后将所有数据分为多个自然邻居扩展组,利用图论算法的知识计算不同自然邻居扩展组之间的接近度,最后进行聚类。经过在人工数据集和真实数据集上进行实验,可以发现INNEG算法精度比NNC-wbo算法更高,并且因为自然邻居扩展组的数量远远小于样本数据的数量,算法所需时间也明显减少。此外,在处理密度差距较大的数据集时,聚类结果的稳定性也有所提升。
其他文献
随着基础教育新课改的不断深入和素质教育的进一步推进,满足学生多元化的个性发展需求已成为教育改革的方向。2014年9月,国务院发布《关于深化考试招生制度改革的实施意见》代表着新一轮的高考改革拉开序幕。颇具中国特色的教研员作为教育领域的重要力量,其专业素养和领导能力的提升对新时代发展素质教育、全面提高基础教育质量起着重要的支撑作用。在当前逐步实施新高考的政策背景下,高中教研员的课程领导力凸显出独特的地
学位
为确定发病鸭场的致病原,并掌握该致病原的遗传进化特征,进行了临床病料的RT-PCR检测、病毒分离与鸭胚病变特征观察、分离毒株半数致死量(ELD50)测定、动物回归试验、VP1基因序列分析等研究。结果显示:临床病料样品经DHAV-C特异性引物检测为阳性,病料样品可引起10日龄鸭胚规律性死亡以及肝脏肿大、出血等特征性病变,分离毒株对鸭胚的ELD50为10-6.32/0.1mL,分离毒株对雏鸭的致死率达
期刊
图论是组合数学的一个分支,有着近三百年的发展历史。图的控制数研究是图论的一个重要的方向。本文研究的是圈与圈笛卡尔乘积图Cn□Cm的罗马{3}-控制数和三重罗马控制数。罗马{3}-控制是指,对于给定图G=(V,E),映射f:V→{0,1,2,3}为图G上的罗马{3}-控制函数当且仅当V中每一个满足f(v)∈{0,1}的顶点v都有∪u∈N[v]f(u)≥3。w(f)=∑v∈Vf(v)是f的权重,图G的
学位
跨学科主题学习的设立,是在分科设置课程的背景下实现课程综合性、实践性的一种积极稳妥的课程举措。从2022年版各学科课程标准来看,跨学科主题学习的类型可从知识的地位或主导学科的多寡两个维度来划分。实施跨学科主题学习要坚持教育性的根本立场,处理好开放与限制、真实与虚拟的关系,既要做到开放、真实、多样、弹性,让学生真切体会到社会实践的开放性、真实性,又要明确教育的要求和底线,真正发挥其整体育人的教育功能
期刊
<正>2023年3月7日,上海市经济和信息化委员会发布首批上海市能源双碳领域数字化示范应用场景名单,共有20个示范应用场景入选。国网上海市电力公司“基于全景能源互联网平台的智慧运营与服务”和“基于能源大数据的城市双碳监测”从众多优秀案例中脱颖而出,分别入选能源供给和消费领域示范应用场景名单和双碳应用领域示范应用场景名单。
期刊
欧拉方程作为微分方程中最基本且最重要的方程之一,其方程本质是基于理想状态(无黏性)下的流体微团应用牛顿第二定律得到的运动微分方程,其本身应用十分广泛,长期以来吸引着大量学者进行研究。在方程组中,可将方程分为三类,其分别对应动量、质量以及能量三大守恒定律。求解此类方程方式种类繁多,其中最常用的方法是有限元法。有限元法的精度高,但由于需要对空间变量进行剖分,这就使得计算量增大,因此,本文中引入了同样作
学位
随着科学技术的发展,人与人之间的交流不仅仅局限于车马行程、信鸽等途径,互联网的出现使得人们之间的关系网络更加复杂。传统的图结构不能够很好的描述网络之间的交互关系,因此,本研究利用进化超图来刻画现实的网络关系。基于此,本研究在超网络的视觉下,分析并讨论了网络的动态演化以及该网络结构对SEIR模型产生的影响。具体内容如下:(1)针对舆论发展变化的问题,以超网络为理论背景,构建了一个舆论动态演化模型,该
学位
时间序列数据的高维性、动态性以及不确定性对时间序列挖掘带来时间和空间上的诸多挑战。粒化求解是模拟人类思维和解决复杂问题的新策略,其为时间序列的知识发现提供全新视角。本文针对时间序列数据特点,通过信息粒化对时序数据进行抽象表示,以降低数据规模,揭示数据规律特征,进而探索时间序列预测和聚类的相关问题,其研究内容如下:(1)提出基于信息粒化的多元时间序列预测方法。为提取时间序列中的主要信息,将信息粒化与
学位
本文基于ZigBee技术原理和协议优势的分析,提出基于ZigBee技术可行性的安全监管系统建设方案,为智慧型校园安全管理工作落实提供参考。
期刊
古往今来,秦汉题材的文学作品中,存在许多描写人物服饰形制的作品。在这些作品中,描写的对象既有平民又有官吏。创作者常通过对人物服饰细致的描绘,塑造出人物的性格特征、身份地位等本质特征。丰富的秦汉题材文学作品几乎将形形色色的人物都纳入到描写的范围,为人们勾勒出一个生动的衣冠王国。文章探讨了文学作品、美术作品、民族艺术对秦汉服饰审美文化的影响。
期刊