基于密度商分的自动近邻传播聚类算法研究

来源 :湖北大学 | 被引量 : 0次 | 上传用户:wangold
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着数据科学的发展,各行各业产生了海量的数据,如何从这些数据中获取有用的信息是一个全新的研究方向。基于中心点的聚类算法是目前应用广泛的无监督数据分析算法,它的主要原理是从大量没有簇类标记的数据中获取有用信息,已应用在不同领域进行数据分析。目前已广泛应用在模式识别、市场分析、医疗诊断、图像处理、信息检索等应用场景,发挥着巨大的经济社会效应。近邻传播聚类(AP)算法是一种基于中心点的聚类算法,相比现阶段流行的、广泛使用的聚类算法能获得较好的聚类效果。在对给定数据集的类别划分过程中,不需要预先指定候选聚类中心代表点及聚类簇的个数。近邻传播聚类算法自研究出来后,就受到广大研究者的关注。然而,特别是随着近些年大数据应用、数据挖掘等数据分析技术的广泛普及,数据结构、样式日益多元化、多样化,标准AP聚类算法在对这些数据进行处理时表现出一些不足:(1)标准AP聚类算法在处理包含噪声数据点的数据集时,其聚类精度及算法执行效率较低;(2)在用AP聚类算法对数据集聚类时容易造成对数据集过度分割,即把隶属于同一聚类簇的数据点划分到不同的聚类簇中。(3)标准AP算法不太适应处理大规模、高维度数据,然而各行业各领域数据的数量正呈现几何级数增长趋势。为了解决上述问题,本文给出了具体的解决措施:提出了基于密度商分的噪声检测算法(DNDA),能有效检测并去除数据噪声;提出了改进的AP聚类算法(GAP),在DNDA算法的基础上,依据密度聚类的思想优化相似度矩阵,可以有效避免数据点密度差异对其成为聚类中心点造成偏差,影响其聚类效果的准确度;提出了基于密度商分的自动近邻传播聚类算法(GDAP),在DNDA算法和GAP算法的基础上,可以有效解决标准AP聚类算法在对数据聚类时数据点的错误划分以及聚类簇数目过多等问题。本文所提出的算法可以有效提升噪声数据集的聚类精度、解决对数据集的过度分割问题,并对提升AP算法在大规模数据集的聚类精度及助推大数据分析技术的发展提供了有益方法论支撑和借鉴。本论文的主要研究工作如下所述:(1)基于密度商分的噪声检测算法(DNDA)。分析了现阶段流行的算法普遍存在不能完全去除噪声数据点的问题,探讨了如何依据数据点之间的密度差异有效区分噪声数据点和有效数据点。在此基础上,提出了该算法。该算法不但从理论视角分析了该算法的有效性,而且通过在真实数据集和人造数据集上实验证明了该算法的实际可行性。(2)改进的近邻传播聚类算法(GAP)。分析了标准的AP聚类算法中构建相似度矩阵时所存在的不足之处,并论述了如何更有效地度量数据对象之间的相似性及合理设置偏向参数值,以优化相似度矩阵的方法。在此基础上,提出了改进的近邻传播聚类算法。通过在真实数据集和人工数据集上进行仿真实验均证明该算法的有效性。(3)基于密度商分的自动近邻传播聚类算法(GDAP)。该算法在基于DNDA和GAP两个算法的基础上,采用改进的密度峰值思想去除掉不相关的聚类中心代表点,准确定位出真实的聚类中心代表点,并基于近邻优化思想完成对其它数据点的自动分类。通过在真实数据集和人造数据集进行实验证明,该算法在继承传统AP聚类算法良好特性的同时,能提升AP聚类算法的精度。本论文所具有的理论价值:(1)通过对传统AP聚类算法的改进,使其具有能有效处理噪声数据集并能有效解决传统AP聚类算法的不足,为大数据分析及应用的发展提供了一种新的研究思路;(2)对传统AP聚类算法的改进和优化对优化其它聚类算法具有一定的借鉴意义。
其他文献
随着国家对马铃薯产业重视程度的提高,生产的专业化和规模化水平也越来越高,化肥农药用量不断加大,加之连作等种植模式的影响,致使以疮痂病为代表的土传病害普遍发生,个别地块发病率达90%以上,给种植业者带来巨大的经济损失。本文分别从种植1年土传病害轻的宁夏西吉(西北)、3年连作土传病害严重的河北沽源(华北)、5年轮作未发现土传病害的内蒙古海拉尔(东北)大田马铃薯根际采集土壤,利用高通量测序技术,比较样品
人类从来没有停止过对公平与正义的追求,公平是构建理想社会的一种基本价值取向和原则,公共图书馆宣言明确了图书馆的服务应该是面向所有人的平等服务,不因受年纪、性别、受教育程度等的限制而有所区别。公共图书馆为广大读者提供了获取资源的渠道以及阅读推广活动的场所。在实现公共文化服务均等化的过程中,公共图书馆通过阅读推广的方式,主动向广大读者提供相关服务,并且通过发挥公共图书馆的主观能动性,使得社会公共文化服
在市场经济高度发达的今天,企业的生命在于争分夺秒地创造效益。过分追求利润的背后,伴随着劳动时间的延长和劳动强度的加大,结果造成了“过劳死”现象丛生。这违背了我国经济发展中效率与公平兼顾的要求,亦不利于和谐社会的构建与稳定。我国法律对于“过劳死”的救济途径以工伤保险责任为主,侵权责任为辅。但大量案情事实与法定责任的构成要件不符,使很多受害者并未得到切实救济。基于“过劳死”法律保护机制模糊甚至缺失的法
语言规划作为社会语言学的一个分支,近年来引发了众多学者的持续关注。根据著名的语言规划学家斯波斯基,语言实践是语言规划的重要组成成分,能对各个层面的语言规划起促进作用。近年来,语言规划研究取得了长足的进步。然而,过去的研究大都围绕宏观语言规划展开,较少关注微观领域,尤其是对高校语言规划的研究,仍缺乏系统的理论指导和实证探究。因此,本文为了响应“一带一路”的倡议,选择沿线国家吉尔吉斯斯坦展开研究。吉尔
受到气候变化、交通量大幅增加等因素的影响,公路病害逐步增多,导致公路服务水平降低,缩短公路使用寿命,从而造成经济损失和行车安全问题,公路养护已经成为当前公路事业的重要问题。针对公路养护决策中养护资金不足、养护任务繁重、自动化和信息化水平较低的问题,开展公路养护决策研究。本文提出多粒度划分方法对路面使用性能指标进行计算评定,以路面使用性能指标值为基础,根据最小二乘支持向量机建立路面使用性能预测模型及
重组工程技术又称为λ-Red/ET同源重组技术,是一种利用重组酶催化DNA分子之间进行同源重组的技术。其中发挥作用的重组酶主要包括λ噬菌体的Redαβγ重组酶以及Rac前噬菌体的RecET重组酶。重组工程的突出优点是可对DNA分子的任何位点进行修饰,没有DNA片段的大小和限制性内切酶酶切位点的限制。寡核苷酸重组工程是指利用单链寡核苷酸为重组酶的底物,无须PCR或酶切所获得的双链DNA,因此最为简便
Y市开发区始建于1992年,2009年升格为国家级经济技术开发区。经过近30年的建设发展,Y市开发区投资环境优化提升,产业集聚效应初步形成,社会民生事业持续推进,经济社会发展正在逐步迈向高质量。为达到奖勤罚懒、打破“大锅饭”局面的目标,自2008年以来,Y市开发区开始在区内实行区别于一般机关行政管理体制的绩效考核制度,通过实行激励性的收入分配制度,将考核报酬与工作岗位和绩效挂钩,从而调动广大干部职
受益于网络技术与智能设备的发展,网络数据信息与人们工作生活的联系愈加紧密,人们在网络上分发分享数据信息的需求越来越大。然而在当前的数据分发服务中还存在很多不足之处。首先,在数据存储与传输的过程中,无论是本地存储还是逐渐普及的云存储,都存在内部泄密或外部攻击的问题,这些问题会造成数据的泄密与丢失,导致用户隐私泄露或利益损失;其次,数据共享过程中数据所有者很难精确的选择将数据分享给谁,无法做到细粒度的
我国人口的平均预期寿命大幅提升,面临着严重的老龄化问题,社会化养老已成为应对老龄化问题的必然选择。老年人身体机能普遍衰退,慢性病的患病率高,改善老年人的健康状况和生活质量不仅是提供养老服务的重要目标,也是提供老年保障的核心内容。服务质量管理作为当前养老服务发展的关键,提升养老服务质量已成为保障并提升老年人的生活水平的重要途径。因此,在健康视域下分析社区居家养老服务质量对于提升养老服务质量,提高老年
运用文献资料法、实地调查法、问卷调查法、访谈法等研究方法,研究民俗节庆视域下内蒙古搏克运动的发展,其目的是了解内蒙古民俗节庆中搏克运动的发展情况,旨在找出内蒙古民俗节庆中搏克运动在发展中存在的问题,在此基础上提出了一些切实可行的对策。研究结果显示:(1)通过对民俗节庆相关资料的研读,对民俗节庆及“搏克”进行定义,且民俗节庆与搏克运动有着非常密切的关系。(2)内蒙古民俗节庆中搏克赛事活动的组织管理目