基于密度峰的自适应聚类算法研究及其应用

来源 :福州大学 | 被引量 : 0次 | 上传用户:wsw361
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在大数据的背景下,聚类分析作为数据挖掘重要的技术手段之一,应用领域十分广泛。基于密度峰快速搜寻的聚类分析方法由于良好的聚类效果,且不受簇类形状所约束,在众多聚类算法中脱颖而出,其在运用过程中关键参数和聚类中心点的选定需要人为参与,给聚类算法应用来带不少困难。针对以上问题,本文开展了密度峰快速搜寻算法的关键性参数自适应优化研究以及密度峰自动确定方法研究,并运用到基于近红外光谱的三叶青产地鉴别的聚类分析中。本文主要开展以下三部分的研究工作:1)从快速搜寻密度峰聚类算法的基本原理入手,介绍了几种常见的局部密度计算方法,同时还详细分析了关键参数对局部密度计算和聚类性能的影响,为算法的改进研究提供方向。2)密度峰快速搜寻算法在运用过程中的难点在于如何确定一个适合的截断距离参数,但目前针对该参数的具体计算方式,还未有明确的定义,通常人为设定,这无疑增加算法的人为主观性,且随着数据样本的数量和维度增加,难度也随之增加;从决策图提取聚类中心的方法也比较模糊,从而限制了该算法的表现。针对该算法的不足之处,提出了两点相应的改进措施:①利用曲线拟合的方式实现聚类中心自动确定;②利用密度势熵的最小化实现截断距离dc 参数自适应。同时还给出了算法改进后的具体流程图及其步骤,最后利用公共数据库里几种常见的数据集对改进算法进行验证,说明改进算法的有效性。3)三叶青是一种对多种临床疾病有显著疗效的珍稀中药植物,不同产地三叶青药用价值差异明显,基于聚类技术实现产地鉴别对监管市场、保障消费者利益具有重要意义。在利用改进的快速搜寻密度峰聚类算法对三叶青的近红外光谱数据做应用研究时,共采集了 8个不同产地的三叶青近红外光谱数据,该光谱维度高达1577维,因此截断距离参数人为设定难度大,且不同产地的近红外光谱较为相近,给聚类中心的准确提取带来一定困难。而利用本文所提的改进算法时,该参数的计算结果为0.038,聚类中心自动确定为8个,且最终的鉴别精度达100%。进一步说明了基于密度势熵最小化的截断距离自适应确定方法效果明显,同时也说明了利用非线性函数拟合决策图可以准确的提取出聚类中心点。面对越来越多样化的数据,基于密度峰快速搜寻的聚类算法由于其快速性、且不受簇类形状所约束,拥有着广阔的应用空间。
其他文献
在国家倡导下,越来越多企业开始重视创业创新活动,希望通过创业创新激活企业活力,从而在竞争日益激烈的环境中脱颖而出。根据企业创新所依靠的知识基础来划分,可以将企业的创
随着数据流量的规模和数量指数级增长,通信系统承受了因此带来的极大压力。然而,传统的通信系统主要是依靠基站的部署,这难以解决带来的相关问题。此外,地面基站的广泛安装具
永磁同步电机(PMSM)具有体积小、运行效率高、功率密度高和转矩密度高等优点,在工业领域尤其是数控机床、新能源汽车等领域得到广泛应用。然而,在传统矢量控制方式下,若使PMS
老挝法律文献的原则是老挝法院在民事诉讼中的判决受到令人担忧的低执行力的困扰。民事判决执行力度低的问题多年来在全国范围内扩大,导致公民和外国对政府无能为力的批评。它是一种无法愈合的慢性疾病。每个政府委员会都试图通过修改法规,学习和交流其他国家的教训等来解决问题,然而,民事判决的执行问题迅速增加。由于我是检察官,我负责监督和检查民事判决的执行情况,我面临着诸如此类的巨大问题;民事执法法律的漏洞,法律的
随着有限合伙企业被2006年新《合伙企业法》写入法律,私募股权投资基金的组织形式也发生了重大变化。有限合伙与私募的结合绝非偶然,有限合伙人力与资本的完美融合、有限合伙
美国的专利制度改革引起了各方的关注,其中最值得关注的是2013年已经在众议院通过的《创新法案》。《创新法案》旨在解决美国由“专利蟑螂”所引发的严重的滥诉问题,该法案综
与微波通信相比,激光通信在通信速率、通信距离、系统体积、重量、功耗等方面都表现出极大的优势。空间激光通信系统中由于通信双方处于相对运动状态,因此需要快速、精确的瞄准、捕获与跟踪(PAT)系统以建立并维持信道的稳定。与近地激光通信相比,深空通信距离远、空间噪声强,对PAT的性能要求更为严格,因此需要对深空激光通信跟踪技术进行深入研究。本文围绕深空激光通信的精跟踪技术开展具体研究。首先,对深空激光通信
高斯整数序列是实部和虚部均为整数的一类复数序列。高斯整数序列不同于传统复数根序列,是一类非恒定幅度序列。且这类序列包含了正交幅度调制序列作为特殊情况。具有良好自相关性的完备高斯整数序列已经被广泛应用于无线通信系统中,例如应用于码分多址无线通信系统中作为扩频序列,可以抑制多径干扰;应用于正交频分复用通信系统中,作为预编码矩阵,可以降低峰均功率比。因此该文以序列的自相关函数为关键要素,对完备以及几乎完
随着教育理念的发展和教育模式的进步,现代教育不断对教育空间提出新的要求。人们开始逐渐意识到非正式学习条件在正式教育空间设计规划中的重要性。本文围绕如何使新科技服
电容层析成像技术(Electrical Capacitance Tomography,ECT)是过程层析成像技术(Process Tomography,PT)研究的热点之一,由电容阵列传感器子系统、数据采集子系统和计算机图