【摘 要】
:
数据挖掘领域中有一项重要的技术就是模糊聚类算法。模糊聚类算法作为一种无监督的机器学习方法,能够将未标记的样本数据划分成多个簇,并使同一个簇中的样本数据之间相似性尽可能大,不同簇中的样本数据之间相似性尽可能小。距离度量是衡量各个样本数据点之间相似程度的重要因素,因此模糊聚类算法的聚类性能在很大程度上取决于距离度量的选择。然而在面对不同的数据特征时,基于欧氏距离度量的模糊聚类算法往往不能得到较佳的聚类
论文部分内容阅读
数据挖掘领域中有一项重要的技术就是模糊聚类算法。模糊聚类算法作为一种无监督的机器学习方法,能够将未标记的样本数据划分成多个簇,并使同一个簇中的样本数据之间相似性尽可能大,不同簇中的样本数据之间相似性尽可能小。距离度量是衡量各个样本数据点之间相似程度的重要因素,因此模糊聚类算法的聚类性能在很大程度上取决于距离度量的选择。然而在面对不同的数据特征时,基于欧氏距离度量的模糊聚类算法往往不能得到较佳的聚类结果。因此,选择合适的距离度量对模糊聚类算法进行优化可以极大提高聚类的准确性和稳定性。本文的工作主要包括以下三个方面。(1)针对改进型可能性C均值(IPCM)聚类算法的聚类准确性受数据不规则分布影响较大的缺陷,将基于模糊协方差矩阵的自适应距离度量应用到IPCM聚类算法中,从而提出了一种自适应改进型可能性C均值(AIPCM)聚类算法。通过在茶叶数据集上对比和分析提出的AIPCM聚类算法。首先利用多元散射校正(MSC),主成分分析(PCA)以及线性判别分析(LDA)对茶叶数据集进行处理,然后在处理后的茶叶数据集上运行AIPCM聚类算法和传统聚类算法。实验结果表明,在不同的模糊加权参数下,AIPCM聚类算法总具有最高的准确率,并且不断修改训练样本和测试样本的数量进行聚类,同样具有最高聚类准确率;AIPGG聚类算法的最终聚类中心与真实聚类中心之间的距离为EAIPCM(28)0.3057,明显更接近真实聚类中心;AIPCM聚类算法仅需29次迭代就可达到收敛状态,比传统的聚类算法要更快。(2)对IPCM聚类算法的距离度量进行再次优化,使用基于模糊协方差矩阵的指数距离度量来计算各样本数据之间的相似程度,并提出了一种改进型可能性Gath-Geva(IPGG)聚类算法。通过对苹果数据集进行聚类,从而分析IPGG聚类算法的性能。首先对苹果数据集进行MSC和PCA处理,然后分别从聚类准确性,聚类中心和迭代收敛结果等三个方面进行详细分析。实验结果表明,IPGG聚类算法的聚类准确性明显高于FCM,GK,GG和IPCM;IPGG聚类算法的最终聚类中心更加接近真实聚类中心;IPGG聚类算法只需要进行13次迭代即可达到收敛状态,因此收敛速度比其他模糊聚类算法要快。(3)受IPGG聚类算法的启示,将基于模糊协方差矩阵的指数距离度量扩展到可能性模糊C均值(PFCM)聚类算法中,并提出了一种可能性模糊Gath-Geva(PFGG)聚类算法。通过对X2 0数据集进行聚类,PFGG聚类算法能够有效聚类识别噪声数据点x1 9和x20,并得到典型值分别为0.0141和0.0297,从而验证该算法能够克服噪声数据敏感的缺陷。在三个数据集(Seeds数据集、Coffee数据集和Meat数据集)上分别对PFGG聚类算法的聚类准确性、聚类中心和迭代收敛结果进行了分析。实验结果表明,通过不断修改模糊加权参数以及系数,PFGG聚类算法的聚类准确性最高,最终聚类中心与真实聚类中心之间的距离最近并且迭代收敛速度最快。
其他文献
声动力治疗(Sonodynamic therapy,SDT)作为一种新兴的肿瘤治疗方法,具有毒副作用低、肿瘤靶向性高、生物安全性好等优点,极具临床应用前景。声动力治疗中声敏剂的选择起着至关重要的作用。目前使用的声敏剂大多为疏水性物质,存在体内不稳定,容易被代谢,肿瘤靶向性差以及容易聚集等缺点,即使后期借助纳米技术研发了一些纳米粒,如Ti O2纳米粒、介孔二氧化硅纳米粒等,仍然存在生物相容性差等问题
太赫兹因其特殊的光谱位置和潜在的重要应用成为当前研究领域的热点之一。本文首先介绍了太赫兹技术的发展和应用,并重点介绍了太赫兹聚合物波导在传输损耗方面的研究进展。由于太赫兹波在自由空间传输时很容易受到周围环境(例如空气中的水汽)的影响,因此,开发低损耗的太赫兹波导成为解决这一问题的方案之一。太赫兹波导是组成太赫兹通信系统以及检测、成像等太赫兹设备的重要功能部件,实现高效、低损耗的太赫兹波传输对太赫兹
自适应波束形成技术作为阵列信号处理的一个主要研究方向,其应用领域非常广泛,涉及雷达、通信、导航、地震勘探和生物医学等。传统自适应波束形成算法在实际应用时,对于信号的增强能力和干扰的抑制能力不够好,且在处理相干信号和非高斯信号时,性能会大大下降。本文在传统波束形成算法基础上,将高阶累积量与自适应波束形成技术相结合,加入解相干处理,使算法有更好的滤波性能且能够处理相干信号和非高斯信号,并针对高阶累积量
自主游戏中低结构材料的投放意义重大。与高结构材料相比,低结构材料更具有开放性,不仅能激发幼儿的想象力和创造力,满足幼儿探索的天性,还能增强其动手操作能力,丰富其感知体验,培养其独立思考与团队合作能力。在游戏中教师要充分相信幼儿自主游戏的能力,尊重幼儿游戏的意向,顺应游戏的发展,巧妙无痕地进入幼儿的游戏中,保护幼儿的"真"游戏。
悬架系统对提高车辆行驶安全性和乘坐舒适性具有十分重要的意义。相比于被动悬架和半主动悬架,主动悬架能够适应不同车辆运行状况,兼顾汽车的操纵稳定性与乘坐舒适性,是悬架产业发展的重要趋势。作为主动悬架设计的关键环节,控制策略优劣直接影响悬架的减振保护效果。将先进控制策略应用于主动悬架是改善悬架系统性能最有潜力的途径之一。本文以四分之一车主动悬架系统为研究对象,设计基于遗传算法(GA)的模糊混合控制器。主
镇江香醋营养丰富,口感独特,得到了广大消费者的认可,但其发酵过程十分繁杂,固态发酵质量对于成品香醋的品质有着重大影响。合理分析发酵过程关键参数的变化,并依据参数的变化对翻醅工艺及时进行调整,让醋醅中的微生物有一个适宜的生长环境,从而避免出现醋醅板结、甚至坏醅等情况。本项目通过获取近红外光谱信息和温度等数据来对整个发酵过程进行检测,并建立相应模型,为指导翻醅操作提供技术手段和科学依据。具体研究内容如
现实中供应链存在各式类型的企业,对其实施差异化的碳减排政策,可以更为有效地推动供应链企业进行减排,促进低碳经济的发展。依据不同类型企业的减排特征,以实施碳交易政策的供应商和实行碳税政策的制造商所组成的二级供应链为例,探讨了碳税和碳交易两种异质性减排政策对供应链决策的影响,分析了碳税税率和碳交易价格之间的相互变化关系。其次,考虑消费者低碳偏好的影响,讨论了供应商和制造商的最优减排和定价决策,消费者低
哮喘是一种慢性气道疾病,其特点是由气道变窄、气道壁腔室增厚和粘液增多引起的气流受限。目前医学领域虽有针对哮喘病的检测技术,如血气分析、肺功能试验等,但这些检测大多费时费力且存在漏诊、误诊等问题。随着人工智能的迅速发展,将信息技术应用到哮喘病的检测与治疗正逐渐成为一种趋势。本文利用哮喘检测常用的血常规作为输入数据,尝试构建一种基于改进模糊支持向量机的哮喘病诊断模型,提高哮喘诊断的准确率。首先提出一种
随着我国手机产业突飞猛进地发展以及其它电子产品销量的高速增长,传统需要点胶的场合逐渐被工业点胶机器人所取代。但现阶段视觉点胶机器人基于二维图像实现引导定位、点胶、贴装、质量检测等系列功能,无法实现高度信息的获取。为了实现视觉点胶机器人对作业工件三维空间信息的获取,增强点胶设备检测能力,提高视觉点胶机器人自动化程度。本文在常州铭赛机器人科技股份有限公司CC600项目研究经费资助下,以VS300C视觉
在众多超级电容器电极材料中,法拉第赝电容型电极材料因发生快速、可逆的氧化还原反应而具有优异的电容量。作为法拉第赝电容型电极材料之一的金属氧化物,例如VO2和V2O5,在拥有较高比电容的同时,存在着层状晶体结构易崩塌、颗粒易堆聚、电导率低而导致的较差倍率性能和循环稳定性等问题。通过材料改性,优化结构,或与其他导电性优异的物质进行复合,可实现VO2和V2O5的电化学性能的提升。在本论文中,引入具有三维