基于k近邻的任意簇检测聚类算法研究

来源 :兰州交通大学 | 被引量 : 0次 | 上传用户:fengljx1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析技术是机器学习和数据挖掘中的一项关键技术,它已应用于模式识别、图像分析、数据统计与分析等众多领域。聚类分析是一个把数据对象划分成子集的过程。每个子集是一个簇,使得簇中的对象彼此相似,但与其它簇中的对象不相似。随着物联网、人工智能以及云计算等技术的迅速发展和广泛应用,数据量在不断地增长,同时也产生了大量分布复杂的数据集。这些数据集中包含了任意形状、任意密度的簇。这些分布复杂的簇给聚类分析算法带来了新的挑战。本文针对包含任意形状、任意密度簇的数据集,基于k最近邻的方法对聚类分析算法进行了研究,提出了kNNC和DCTC两个算法。具体取得的研究成果如下:(1)kNNC算法基于距离最近的两个点应该被划分到同一个簇中、联系紧密的两个簇可以合并为一个簇的思想,发现任意形状、任意密度的簇。算法首先根据数据点的k近邻关系,提出了一种新的数据点相似性度量方法。这种相似性度量方法能够适应数据集中数据点的密度变化。然后,对于数据点对,如果它们之间的共同邻居个数大于给定的阈值,就将此数据点对加入到同一个簇中,形成初始簇。接着,如果两个初始簇中的数据点具有较多的共同邻居,就将这两个簇合并为一个簇。在此过程中,同时如果某个数据点与其它数据点之间共同邻居的个数小于给定阈值,就识别为噪声点。在实验中,将kNNC算法与2个经典聚类算法、4个新的优秀的聚类算法,在13个包含任意密度、任意形状簇的数据集以及6个多维数据集上进行了对比。结果表明,kNNC算法可以快速有效地发现任意形状、任意密度的簇,并且能够识别噪声点。(2)DCTC算法是一种基于k近邻发现簇主干的聚类算法。该算法首先利用数据点的k近邻和反向k近邻之间的关系,定义了数据点的局部密度。这种密度消除了数据集中不同簇之间数据点密度差异较大对聚类结果的影响。然后,根据数据点的局部密度将数据点划分为核心区域点、边界区域点和噪声区域点。这种方法消除了以任意形状、任意密度分布的簇和具有多个中心点的簇对聚类结果的影响。接着,对核心区域的点,进行聚类形成簇主干。最后,对于边界区域的点,将其分配给与它关系密切的簇构建最终簇。在13个包含任意密度、任意形状簇的数据集以及5个多维数据集上,DCTC算法与2个经典聚类算法、4个新的聚类算法进行对比。结果表明,DCTC算法发现任意形状、任意密度簇的性能更好,同时对不平衡数据集以及多中心点数据集的检测有较好的表现。本研究提出的两个聚类算法在复杂分布的数据集中均能较准确地发现任意形状、任意密度的簇,并且具有较低的时间复杂度,均为O(n·logn)。
其他文献
雅各布·路德维希·费利克斯·门德尔松·巴托尔迪是德国犹太裔作曲家,也是德国浪漫派最具代表性人物之一。对于作曲家的生平来说,我们已经再熟悉不过了,他的创作以及对于后世音乐教育领域,还有作曲技法的继承和创新等方面,已经远近闻名。本文希望以一个新的角度,来探究门德尔松的作品,所以第一部分以故事性的方法来带入,通过简单介绍他的祖辈,再到他的履行创作旅程,再到爱情对于作品的润化,以及最后为了音乐贡献自己一生
学位
股权善意取得制度的构建,是为了解决具体实践中有限责任公司股权转让引发的纠纷,主要的目的在于对市场中的动态交易进行保护,以及促进市场的效率提高,《公司法》、《民法典》中都对股权善意取得制度的适用进行了相应的法律规定,从法律层面确立了善意取得制度在股权转让中的适用。有了法律的支撑,具体司法实践中取得了突破的同时,也遭遇了一定相应的困境。主要的原因在于,当前法律中关于股权善意取得制度的规定,基本上还是停
学位
本文共分为三大部分进行书写,第一章为作曲家的生平,曲目创作背景与创作风格介绍;第二章主要内容为《五魁》的曲式结构分析与具有代表性的创作特点;第三章为演奏技法处理,共分为三部分来进行分析,第一部分为节奏控制、第二部分为强弱变化处理、第三部分为按压琴弦的特殊演奏方式。综上所述,《五魁》这首作品使用了西方现代作曲技法结合了中国民间音乐曲调元素,是不可多得,意义非同一般的作品。
学位
学位
近年来,随着我国经济的快速发展和城市化进程的加快,大中城市的高层建筑数量不断增加。剪力墙结构作为一种具有良好抗震性能的抗侧力结构,广泛应用于高层建筑和超高建筑中。一种新型剪力墙结构:钢板混凝土组合联肢剪力墙,逐渐被应用于高层和超高层建筑,该结构不仅墙体薄、构造简单,而且延性好、抗侧刚度大,该剪力墙在常温下的抗震性能已有大量研究成果,但是其在火灾下以及火灾后的抗震性能却很少有研究报道。本文对钢板混凝
学位
中国自改革开放以来,经济发展成绩斐然,但目前的主要矛盾已转变为人民对美好生活的需求与发展的不均衡,使城乡差距进一步扩大。为了进一步缩小我国的城乡差别,必须促进城乡融合发展。乡村旅游是振兴乡村、促进城乡融合、实现城乡一体化的重要途径。近年来,乡村旅游得到了迅猛地发展。但是在乡村旅游发展的过程中,由于城乡发展关系的不平衡不协调从而导致产业融合不足、资金瓶颈、管理不健全等问题依然存在。本文运用文献资料和
学位
衍生数据产品,是数据开发主体在获取原始数据后对其进行分析加工后所形成的具有价值的智力劳动成果,是原始数据的一种新表达。衍生数据产品集中体现了数据的财产价值,涉及多方利益主体,是利益博弈的一个冲突点,亟待法律回应与规范。本文在第1章主要阐述了选题的背景及意义、国内外文献综述、选题思路和框架。本文在第2章论述了衍生数据产品的基础理论。本文认为“数据”,是指以电子方式记录在计算机及网络上的“作为事物的信
学位
小微企业是国民经济体系中重要的组成部分,在我国经济发展过程中贡献突出,尤其体现在“稳增长、调结构、促改革、惠民生”等方面。国家高度重视小微企业发展,各级政府出台若干扶持小微企业发展的政策,商业银行将响应国家号召与自身业务发展需要相结合,不断加大对小微企业的金融支持力度,近年来随着各方的扶持,小微企业发展迅猛。但是由于新冠疫情冲击、国内外经济形势复杂多变以及小微企业自身的制约特性,比如体量小、抗风险
学位
近几年,面对全球新冠疫情的冲击和复杂多变的国内外经济形势,小微企业的经营步履维艰,融资渠道少、融资成本高的问题日益突显。在流动资金较少的情况下,小微企业将银行贷款作为主要融资渠道。G银行LY分行积极贯彻落实国家“六稳”、“六保”和稳经济大盘政策导向,通过减费让利、简化贷款流程及降低准入门槛,全面加强对小微企业的信贷业务支持。但是,由于小微企业信贷业务在我国起步较晚,小微企业规模小、自身抗风险能力低
学位
本试验以薄壳山核桃花粉为材料,基于薄壳山核桃花粉离体萌发体系,探讨影响离体萌发的调控基因和微生物,克隆了山核桃属脂质转移蛋白基因LTP1和LTP2,并对其进行了生物信息学分析和定量表达分析,进一步对其在花粉萌发中的功能初步验证,同时研究了微生物对薄壳山核桃花粉离体萌发的影响,以期为薄壳山核桃育种改良和生长调控奠定基础,并为花粉萌发特性研究提供技术支持。主要结果如下:(1)LTP在薄壳山核桃和浙江山
学位