基于样本密度的分块模糊聚类算法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:zhangchi900207
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着现代文明科技的快速发展,人类已经迈入了信息化的社会,无论是生活还是工作中,各行各业的信息数据量呈现爆发式的增长,数据量越来越多。而如何从这些海量数据当中找到真正有用的信息便成为了人们所关注的热点话题,数据挖掘技术便应运而生了。俗话说:“物以类聚,人以群分”,聚类分析是数据挖掘的一项十分重要的手段,聚类算法也是数据挖掘研究领域中的一个非常活跃的研究课题。聚类技术的目的是将大量样本或抽象的数据按照相互之间的相似性分成若干个子集合,从而发现数据的结构,帮助人们更好地了解数据之间所隐藏的一些信息。现代信息科技的飞速进步,导致信息规模的增长越来越快,很多传统的聚类算法都已经无法应对规模越来越大的数据了,因此研究人员将注意力转移到了能够适应规模越来越大的数据集的一些新型算法上。本文将结合传统的模糊聚类算法,引入了基于分块思想的模糊聚类理论,并且结合数据集中样本点的密度属性,提出了几个基于样本密度的分块模糊聚类算法,提高了传统模糊聚类算法的聚类效果。本文的主要工作如下:(1)提出了一种基于密度加权的在线模糊聚类算法(DWOFCM)。算法运用了分块的思想将数据集分割,同时引入了密度加权的方法,根据样本的密度特征对数据集中的所有样本进行加权处理,然后分别对每一部分数据进行聚类,最后再将所得到的结果统一起来进行处理,从而得到聚类结果。该算法相较于传统的模糊聚类算法在一定程度上提高了聚类效果。但是算法也存在着缺陷与不足,当数据规模继续增大时,该算法的聚类效果则会明显有所下降。(2)提出了一种基于样本局部密度的单通模糊聚类算法(LDSPFCM)。改进了计算密度的方式,将全局密度改为局部密度,从而能够更好的反应样本的实际分布情况,避免了距离较远的样本点在计算密度时造成的不良干扰,同时也改进了SPFCM对输入次序的依赖特性,提高了聚类效果。(3)提出了一种基于密度峰值的加权单通模糊聚类算法(DPWSPFCM)。算法除了计算样本点的局部密度之外,还结合了数据集当中高密度点之间的距离属性,寻找数据集的密度峰值,根据数据集的密度峰值来重新将数据集排序,并且对样本点加权,使得密度峰值区域的样本点权值更大对聚类结果的影响更大,从而提高聚类效果。
其他文献
电磁环境的日益复杂,对电子侦查技术提出了更高的要求。为此论文基于时频分析技术对多通信信号的盲检测算法展开深入研究。针对跳频信号参数估计问题,通过平滑伪维格纳-维利
微波光子学是微波技术与光子学相结合的产物。相比传统技术,微波光子技术具有低损耗、大带宽、抗电磁干扰、体积小以及重量轻等优势。随着目前信息业务的多样化以及通信频段
目的探讨胰岛素泵治疗中低血糖发生的原因及相应的预防对策。方法对108例使用胰岛素泵患者的临床资料及血糖谱进行观察,分析其中低血糖发生的原因。结果 108例使用胰岛素泵患
骨质疏松症是以骨量减少,骨质量受损及骨强度降低,导致骨脆性增加,易发生骨折为特征的代谢性骨病,属中医学"骨痿"、"骨痹"等范畴。随着科技及社会的进步,骨质疏松症呈现出复
目的了解2014年新疆7个地区114份农村饮用水中总硬度、氟化物、氯化物、硫酸盐、溶解性总固体、砷、铁、锰的含量,为防控地方性氟、砷中毒流行提供基线资料。方法按照《生活
本文探讨了基于Kirchhoff假设,关于一般薄壳边界元分析的新途径,采用了Kelvin解取代形式各异的具体壳基本解,建立了一般线弹性薄壳的边界元积分方程。通过适当的边界处理,建
根据形状记忆合金 (SMA)的超弹性特性 ,设计、制造了一种SMA复合摩擦阻尼器 ,该阻尼器利用SMA超弹性阻尼与SMA丝的约束作用使阻尼器内部产生摩擦来共同耗散振动能量 .介绍了
新时期的职业教育不仅仅要培养技能型人才,更要致力于复合型人才的培养。一名中职类院校毕业的学生要想在企业有所作为、有所发展,必须达到"看得懂、算得准、做得好"的标准。
美国金融危机是全球经济过度金融化的后果。过度金融化不仅形成了脱离实体经济发展水平的巨量金融资产泡沫,而且造成了储蓄动员机制、风险管理机制和分配调节机制等市场经济
对大展弦比、小弦长差、细窄机身结构特征的飞机,建立了着陆撞击分析时的自由自由梁弹性机体模型,给出了自由自由梁弯曲振动的一个近似解,并与实测值进行了对比,结果表明这个