面向复杂结构数据的聚类算法研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:syx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是一种重要的数据挖掘技术。它的目标是挖掘数据中的簇,使得在同一簇中的数据比在不同簇中的数据更相似。研究者已经提出了一系列聚类算法并把它们广泛应用于图像分割、信息检索、数据压缩和生物信息学等领域。近年来,随着大数据、区块链和人工智能等一系列新兴技术的快速发展,在互联网、科学研究和工业生产等领域积累了大量复杂结构数据,比如形状不规则数据、密度不均匀数据等。聚类这些数据给传统的聚类算法提出了严峻挑战。因此,如何聚类复杂结构数据成为了一个富有挑战性的研究课题。本文针对复杂结构数据,开展了聚类算法的研究,主要的研究内容及研究成果如下:(1)针对密度不均匀的数据,本文提出了一种基于局部差异密度的聚类(LGD)算法。该算法根据一个数据点的密度与它邻居的最高密度的差异定义了局部差异密度。基于局部差异密度,LGD算法首先识别数据中的核心点和边界点。然后,它根据k近邻图中边的端点是否为边界点以及边的权重大小,定义了潜在的跨簇边。在删除了跨簇边后的k近邻图中,包含数据点较多的分支上的所有数据点被作为一个初始簇。最后,对于未被聚类的数据点,LGD算法在初始簇中为它们选择了代表点,并把每个不属于初始簇的数据点分配给包含其代表点的初始簇。实验表明提出的算法的聚类效果优于传统的聚类算法和新近的聚类算法。(2)针对复杂结构数据,本文提出了一种基于密度递减链的聚类(DDC)算法。该算法在交互k近邻图上定义了密度递减链,其链上的数据点的密度依次递减且链的起始点为具有局部最高密度的数据点。利用密度递减链,复杂结构的数据可以被很好地分为核心点和边界点。为了聚类数据,DDC算法首先定义了簇内密度递减链概念以在数据中挖掘初始簇,然后基于密度递减链把数据中不属于初始簇的数据点层次地分配到相应的初始簇中。通过实验证实,该算法对于复杂结构数据的聚类效果超越了相关的聚类算法。(3)针对大规模复杂结构数据,本文提出了一种基于邻接密度的聚类(JDC)算法。该算法定义了邻接密度用于度量两个子簇相邻区域的密度,其中子簇由K-means算法划分数据集获得。基于子簇之间的邻接密度,JDC算法先重新定义了DBSCAN算法中密度可达的概念,以合并满足密度可达条件的子簇为初始簇,然后重新定义了LGD算法中的代表点的概念,以分配剩余的子簇给相应的初始簇。由于JDC算法聚类子簇而不是直接聚类数据点,与那些直接聚类数据点的密度算法相比,它的计算复杂度显著降低。在多个复杂结构的数据集上提出的算法的高效性和有效性被验证。(4)针对含噪声的复杂结构数据,本文提出了扩散聚类(DC)算法。该算法首先根据一个数据点与它的邻居的距离定义了该数据点的扩散距离。然后,基于数据点的扩散距离及其近邻点的平均扩散距离,DC算法将数据分为可扩散点和终止点。最后,该算法定义了可扩散点的扩散集概念用于挖掘数据中的簇,特别地,离可扩散点较远的终止点被识别为噪声数据。通过实验证实,DC算法可以很好地挖掘复杂结构数据的簇和准确地识别数据中的噪声点。针对复杂结构数据聚类问题,本文进行了系统性研究,定义了一些新的概念,比如局部差异密度、密度递减链、邻接密度、可扩散点等。基于这些概念,本文针对复杂结构数据提出了4种新的聚类算法,丰富了聚类分析的研究内容。
其他文献
台湾作为我国神圣不可分割的一部分,与祖国大陆在文化、经济等方面有密切的联系,而台湾新闻学术思想,作为我国新闻学术发展重要的组成部分,长期被大陆学者所忽视。台湾地区在百余年间经历了封建统治、殖民统治与威权统治等不同的政治形态,新闻学发展呈现出纷繁的面貌。早在日据时期,殖民统治的文化暴力催生了以言论为武器的文化运动者,他们在实践中生发出了包括舆论观、教化观、自由观在内的新闻观念,为日后台湾新闻学术思想
位于丝绸之路中段的新疆在历史上又称西域,自古以来就是多民族汇聚、多元文化共生的重要区域。独特的地理位置与多样的自然生态环境,造就了这里绿洲农耕文化与草原游牧文化交相辉映的主要特征;不同生产生活方式的各个族群在相互交往中相互学习,彼此交融,曾形成了多元文化共生的繁荣局面。生活在这里的各民族始终扎根中华文明的沃土,受到东西方各种文化的浸润,进而构成中华文化不可分割的有机组成部分。在历史上,包括西域文化
细菌在自然界中无处不在,部分细菌会引发疾病,危害人类健康,其可在生产生活中的各种器具表面形成的生物被膜进而造成生物腐蚀,或在外科手术植入物上形成生物被膜造成二次感染。特别是抗生素的过度使用致使细菌耐药性的快速出现并发展,如今已然是危害人类健康的全球性问题。不过,也有对人体有益的细菌,如肠道菌群即是人类生存的根本;生物被膜也因其独特的生理化学性质,可被应用到生产生活中发挥正面作用,近年来更是作为生物
自1945年光复后,台湾地区的史学方法与史学史研究接续中国大陆的史学传统后不断发展,成为中国史学史发展的重要组成部分,但台湾地区的史学方法与史学史研究与大陆地区的发展并不相同。本文拟由学术史的角度出发,对五十年间台湾地区的史学方法与史学史研究作梳理,旨在了解这一研究的阶段性特征,以期更好地把握战后台湾地区学术的发展走向,从而分析战后台湾地区的史学方法与史学史研究的特点。全文共分为六章:第一章为绪论
多输入多输出(Multiple Input Multiple Output,MIMO)雷达具有空间分集增益和波形分集增益,能够为目标参数估计带来一定性能改善。经典MIMO雷达估计理论通常依赖于正交发射信号、空间不相关目标反射系数以及白噪声等一系列理想假设条件。然而近年来学术界和工业界逐渐发现,完美正交发射信号难以实现,由此还可能引发空间相关噪声。类似的问题也出现在MIMO雷达与外辐射源雷达、雷达通
目前,基于P型栅的增强型氮化镓高电子迁移率晶体管(P型栅Ga N HEMT)是实现高效、高频、高温功率变换的一种良好方案,且其凭借在成本、性能、可靠性等方面的优势,已进入商业化应用。但在P型栅Ga N HEMT功率器件应用过程中,仍面临功耗模型精度较低和诸如静电放电(Electro Static Discharge,ESD)可靠性等方面的问题。本文针对P型栅Ga N HEMT功率器件在面向应用过程
近年来太赫兹技术在军事保密通信、高分辨率成像、高精度无损探测等多个重要领域的应用备受关注,太赫兹系统应用的高增长极大的刺激了高性能太赫兹器件与电路的需求。太赫兹固态技术是实现高频率、高集成度、高可靠性系统的重要基础,半导体器件是太赫兹固态技术得以快速发展的关键因素,其中以磷化铟双异质结双极性晶体管(InP DHBT)最具有代表性:InP DHBT具有优异的高频特性及功率特性,是目前太赫兹固态技术领
河口湿地因其独特的海陆交汇区位、生态脆弱性和环境梯度异质性,成为全球变化的敏感区。河口湿地同时受陆地和海洋的双重调控及径流-潮流影响,生物组成多样,食物网结构复杂,是营养级联效应的典型生态系统。作为敏感的生态系统,河口湿地受到自然和人为因素的双重影响,堤坝建设、人为恢复活动、石油开采和外来物种入侵等,都导致自然水文连通度、连通方式和水文节律的改变,造成生态系统退化,生物多样性锐减,影响河口湿地结构
水稻驯化是人类活动影响下的生物进化过程,与人类生存息息相关。阐明水稻驯化驱动的根际微生物组群落结构和功能变化规律,进而应用于改良、重组和构建栽培稻根际微生物组是农业发展重要增长点。现代栽培稻包括亚洲栽培稻(Oryza sativa)及非洲栽培稻(O.glaberrima),由不同的野生种驯化而来,且独立起源于亚洲和非洲。本研究共以12种具有遗传关系的野生稻及栽培稻品种为研究对象,通过长期定位试验及
水稻孕穗期低温胁迫会破坏生殖器官功能,使花药发育受损、花粉育性降低,最终导致水稻结实率下降、产量降低。黑龙江省是我国重要的水稻商品粮区,水稻产量约占全国的1/9。黑龙江省是我国最北部的水稻种植区,孕穗期冷害频繁发生,严重的威胁了当地水稻的生产。由于孕穗期耐冷表型鉴定上存在困难,目前只有少数孕穗期耐冷基因被鉴定出来。因此,挖掘更多的孕穗期耐冷基因,解析其调控机制具有十分重要的现实意义。本研究鉴定到了