聚类分析算法研究

被引量 : 0次 | 上传用户:weichungchen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术的发展,特别是数据库技术的广泛应用,大量的数据被保存下来。如何充分发挥这些数据的作用,数据挖掘技术得到人们的重视。聚类分析是数据挖掘的重要研究内容。相对于分类这种有导师的学习方法,聚类也称为无导师的学习方法。目前聚类分析方法大体分为基于划分的方法、基于密度的方法、基于层次的方法以及基于网格的方法等。本文首先综述了数据挖掘和聚类分析,分析了几种常用的聚类算法的优点和不足。在此基础上,主要研究了基于划分的聚类算法中的k-means算法。k-means算法具有实现简单、算法效率较高、扩展性较好的等优点,但是也存在一些不足:对初始聚类中心敏感,选择不同的初始聚类中心可能得到不同的聚类结果;对噪音数据敏感,少量的孤立点就能使聚类结果产生很大变化。针对k-means算法对初始聚类中心和噪音数据敏感的不足,本文将数据密度的思想以及改进的最大最小距离算法用于k-means中,给出了两个改进算法,一个用于消除初始聚类中心对聚类结果的影响,另一个用于降低噪音数据对聚类结果的影响。最后给出了一种基于聚类-分类模式解决聚类问题的方法:首先通过聚类技术得到各类数据的部分具有代表性的数据,并用这些有代表性的数据训练出分类器,然后使用得到的分类器对其余数据进行分类。在UCI数据集上对上述三个算法进行了验证,实验表明了改进算法和聚类-分类模式的有效性和正确性。
其他文献
<正>字词句始终是第一学段阅读教学的重要内容。在小学语文教学的历史上,诸多教育名家潜心研究低年级阅读教学,在字词句教学上积累了很多宝贵的教学经验,最著名的是上世纪50
本文对毕业于109所院校,分布在全国各地的回、藏、维吾尔族等33个民族的少数民族大学生就业现状进行了调查。调查发现,少数民族大学生就业中存在一次就业率低、就业成本高、
伊斯兰教法文化中孕育着许多具有现实意义的神学法治理念或法治因子。本文对伊斯兰教法中国本土化及其对我国回族穆斯林法治理念建构之影响, 做了初步研究。
脉冲宽度调制(Pulse Width Modulation,PWM)控制技术在功率变换装置中的应用,为整流器性能的改进提供了变革性的思路和手段。PWM整流器具有功率因数可调、网侧电流正弦化、低
徽派建筑中常见一种用以支撑屋顶挑檐部分的斜撑构件,民间依据其形态称之为"牛腿"。"牛腿"由传统建筑构件撑拱演变而来,但其功能与撑拱已有很大不同。作为徽派建筑构件,"牛腿
黄土高原自退耕还林还草工程实施以来,区域植被覆盖发生了很大变化.为有效监测其变化程度,基于像元一元线性回归模型,利用该地区2001-2014年MODIS归一化植被指数fnormalized diff
古徽州通常指今安徽南部的黄山市一带,历史文化悠久,自古有着“东南邹鲁”之称。明代以后随着徽商崛起,徽州经济的增长也带来了艺术文化的进步。徽州古建筑是我国传统建筑流
分析了电动轮轮胎的使用寿命与TKPH值的密切关系 ,着重研究了TKPH值与车公里数的内在联系 ,结合德兴铜矿采矿场运输作业的实际情况 ,制定相应措施 ,提高轮胎的使用寿命。
以经济全球化为主导的信息社会是一个知识综合创新的时代,是一个需要和催生具有知识综合创新品质人才的时代。那些基础扎实、知识广博、融会贯通地涉猎和掌握多学科领域理论
文章介绍了反渗透膜的工作原理和反渗透水处理系统的特点,针对现阶段反渗透净水机在回收率较低、净水流量较小等方面的不足,展望了反渗透净水的节水、低压、大通量的技术趋势