全局模糊聚类算法研究

来源 :哈尔滨理工大学 | 被引量 : 0次 | 上传用户:SunwithKing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类算法分析是机器学习领域中的重要分支之一,随着空间聚类研究的发展与深入,其衍生出的模糊聚类更能客观地反映世界。模糊C-均值(FCM)算法是一种基于划分的模糊聚类算法,其过程具有无监督性、思想简单且容易实现,已逐渐成为聚类分析中的研究热点方向之一。然而,模糊C-均值算法过度依赖初始聚类中心的选择,而且容易受到孤立点和噪声点的影响,导致聚类结果易陷入局部最优,此外,也通常存在无法确定最佳聚类数目的缺陷。因此,全局模糊聚类算法研究成为一个重要课题,该算法的主要思想是将c个簇的聚类过程转变成一系列子聚类过程,使得聚类结果考虑到数据的全局分布,跳出局部最优,在聚类分析研究中发挥了重要作用。本文通过对全局模糊聚类思想过程的原理进行系统分析,发现现有相关算法仍然存在公式复杂导致计算负担较大,易受噪声点、孤立点的影响,初始簇中心难以确定以及最佳聚类数目不可预知等问题,基于该一系列不足,本文从以下两方面着手,对算法进行研究与探讨,使其在使用过程中更具备现实意义:一方面,针对现有全局模糊聚类算法的计算量、鲁棒性、初始中心的问题,提出基于一种新的度量(AM)的快速全局中心模糊聚类算法,首先,鉴于聚类中心往往处于密集度较高的区域,本文采取密集度的思想选取第一个初始中心点,即提出利用k距离圆比(DKC)的思想寻找一个样本点分布密集的区域,并将DKC值较大的数据点从备选聚类中心中删除,减少计算量,同时,DKC值公式相对简单,单次求和进一步降低计算负担;然后,在算法中引入AM度量取代欧氏距离度量,根据AM度量单调缓慢递增且有界的特点来增强算法的鲁棒性,降低孤立点对聚类效果的影响;最后,结合DKC值与AM度量的优势,提出了一个新的自定义函数来确定下一个聚类的最佳初始中心点,该函数能够快速准确地选择一个周围样本分布相对密集,且距离现有聚类中心较远的样本点来做为下一个最佳初始中心点,从而避免了噪声点的影响,在一定程度上提升了聚类的精确度。另一方面,针对聚类数目不可预知的不足,对已有模糊聚类有效性指标进行了系统的分析与改进。对模糊聚类算法所得结果进行衡量时,不仅需要考虑每一数据点的模糊隶属度以及对其类中心点的距离等因素之外,而且需要关注数据集的整体分布特征。因此,本文结合改进的紧凑性度量、分离性度量以及划分系数,提出了一个新的模糊聚类指标。其中,紧凑性度量是通过计算类内误差反映类内数据点的紧凑程度;分离性度量是通过计算两两模糊类之间的差异性来反映聚类之间的分散程度;划分系数是通过计算隶属度来反映聚类划分结果的清晰程度。显然,当数据集的紧凑度越小、分离度越大、且划分系数越清晰时聚类效果越好,进而较为准地确定待聚类数据集的聚类数目,结合本文提出的模糊聚类算法,实现了真正的无监督性质。实验结果证明该有效性指标在可靠性与鲁棒性上都具有良好的性能。
其他文献
公证书是国家公证机构依法对当事人申请公证的法律行为、有法律意义的文书和事实进行审查后,确认其真实性、合法性的证明文书。涉外公证书是公证机构对发生在国内的法律行为及
白内障是眼科常见性疾病,特别是对老年人的生活质量有很大影响。在人的眼内有一重要的器官叫晶状体,它在正常情况下是透明和富于弹性的。晶状体就像照相机的镜头一样,通过它
晚明以婚恋为题材的戏剧作品中所表现出来的社会婚恋观念 ,与前代相比有很大的变化 ,这和当时社会的经济发展、思想解放都有着密切的关系。晚明社会婚恋观念的嬗变在戏剧作品
认知结构中的三类元认知交互控制着个体认知结构的建构.个体的发展与元组合有关,元和谐促进个体的发展,元错位阻碍个体的发展.除了遗传因素,许多内隐元认知是通过外显元认知
<正>人们喜欢仰视。因为"人往高处走,水往低处流",无论做人还是干事业,只有放远、放高目光,才能走得更远,也站得更高。因为我们自幼就接受这样的训导:要抬头做人。抬者,仰也,
期刊
近年来,我国铁矿企业税费负担呈上升态势,其中增值税占企业税费总支出近一半。但我国铁矿企业资源税费制度面临资源性税费存在重复计征、增值税抵扣范围有限等问题。本文通过对
期刊
研究目的:根据《中国儿童青少年营养与健康报告》统计1985至2014年30年期间,青少年的肥胖率呈快速增长趋势,城市从1985年的0.2%增长至2014年的11.1%;城市学生视力不良检出率
会议
<正>作为全国脱贫攻坚主战场之一,广西近年来坚定不移把打赢打好脱贫攻坚战作为最大的政治责任和第一民生工程,举全区之力集中攻坚。2018年,全区聚焦"两不愁三保障"克难攻坚,