基于缺失属性值概率模型的不完备数据聚类研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:theonezhaoq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
模糊聚类已广泛应用于图像处理、模式识别等领域。传统聚类分析方法只能应用在完备数据集上,不能直接应用于不完备数据集。但是在实际应用中,由于各种原因数据通常是不完备的,而且缺失属性的处理对聚类效果有着显著影响。因此,研究不完备数据集的聚类方法是一个具有实际应用意义的问题。本文以缺失属性值的最近邻区间为基础,研究了不完备数据的聚类方法。最近邻区间描述能够在一定程度上体现缺失属性值的不确定性,但是没有对近邻样本的属性值进行充分挖掘,不能体现近邻样本的属性值分布信息。本文利用近邻样本相应属性值在最近邻区间范围内的分布信息,为缺失属性值建立一种简单有效的概率模型(Probability Model,PM)。通过遗传算法和梯度下降法迭代实现聚类,遗传算法通过概率取值来进行初始种群和变异操作,梯度下降法通过缺失属性值的概率来确定搜索步长。算法在相应最近邻区间范围内依据概率搜索缺失属性估算值以极小化聚类目标函数,通过对基于优化的缺失属性估计值还原数据集进行FCM聚类可以较好的实现不完备数据模糊聚类问题。本文所提缺失属性值概率模型不仅能够将最近邻信息引入缺失属性描述,并且充分挖掘了相应属性值在最近邻区间范围内的分布信息,因此能够较为有效地“还原”缺失属性值。遗传算法有精细的全局搜索能力,且稳定性较好;而梯度下降法具有快速搜索的能力,能够快速搜索到比较好的解,可以得到不错的聚类结果。在多个UCI数据集上的仿真实验表明:概率模型较其他缺失属性的描述方法,是一种描述不完备数据缺失属性值的有效方法,在此基础上聚类得到的结果更好。
其他文献
中国与阿拉伯国家的友谊源远流长,中阿之间的友好合作由来已久,最早可追溯到2000多年前的"丝绸之路",中国的四大发明通过丝绸之路传到两河流域、尼罗河流域(即现在的阿拉伯地
会议
水是一种不可或缺的战略资源,在生态环境、社会生产生活中起着重要作用。一段时间以来,由于污废水的不达标排放引起的水环境问题频发,业已成为经济和社会发展的重要制约因素,
哈尔滨这座永恒的城市名都,由于历史和地理原因,与手风琴这一独特的乐器有着不解之缘。本文试图从哈尔滨手风琴创作、手风琴教育、手风琴团体以及哈尔滨的手风琴艺术家、文化
近年来,随着环境恶化带来的一系列问题,更好地了解环境变化趋势可以为政府提供环境保护对策。而环境污染指数是衡量环境污染程度的重要指标,能够实时查看环境污染指数、预测
散粒体斜坡广泛分布于我国西部较为干旱的高寒山区,如新疆、西藏等地。每次溜动量不大,但活动极其频繁且尚无长期有效的防治措施,尤其是发育于公路两侧的散粒体斜坡,严重影响
本研究成功建立了鸡胚原始生殖细胞(Primordial Germ Cells,PGCs)的体外培养体系,并对其生物学特性进行鉴定。探讨了鸡胚PGCs减数分裂过程及精子发生相关基因表达量的变化。
生物礁相储层作为优良的碳酸盐岩储层,近些年随着物探预测技术的进步,对礁的识别技术越来越成熟,国内外针对礁相油气藏的勘探开发获得突破,相继发现一大批获高产的生物礁油气
大型食草动物和节肢动物是草地生态系统重要组成部分,对于维持生态系统稳定和生物多样性具有重要意义。然而大型食草动物和节肢动物究竟如何干扰昆虫群落结构这一重要科学问
学位
风电作为商业应用最成熟的新能源发电技术在全世界范围内被广泛应用,我国风力发电也在飞速发展,截至2013年底,我国风电装机总容量达到91.4GW,居世界首位。但是,风电却因为其