密度敏感的K-means聚类算法研究

被引量 : 0次 | 上传用户:jiangyanxiaonvzi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘技术在当今大数据涌现的今天已经变得越来越重要,比如乘坐飞机的每一个乘客的购票信息,银行里每一个顾客的交易记录,网上每一个网民的购物记录,各大超市里所有商品的卖价等等,所有的这一些都预示着大数据正在不断涌现,如何保存处理这些大数据就成为当今信息技术研究的重点课题,数据挖掘技术无疑将成为我们唯一的方式来解决这个问题。而且大数据问题在国内外都是一个崭新的领域,相应的科研人员如果能够更多关注这一问题并恒于研究勤于反思努力实践,那么我们将在这一领域取得最终的胜利。K-means聚类算法是数据挖掘的知识,是聚类算法中使用频率最多的算法,众多国内外学者都对其有深入研究和改进,但是K-means算法本身存在的几个缺点仍然无法完全克服,像很难在非凸形状数据集上进行聚类,容易被噪声点干扰,对高维的数据集的聚类准确性不高,聚类之前需要输入聚类数目等。因此在本文中,就它的这几个缺点做了改进创新,使其通用性大大增强。本文主要工作包括:1.提出基于三角划分的RtK-means聚类算法,通过Delaunay三角化进行初始网格划分,删除三角网格中的长边,根据整体聚类获取较为准确的聚类数。该算法有效解决k均值算法难以聚类非凸形状数据集的问题,对数据类簇相距比较远的情况更加容易聚类,在人工数据集上取得较为准确的聚类效果。2.给出局部邻域半径内处理边缘数据点的快速方法,具体方法是先对删除长边的点选定一个邻域半径r,然后对该邻域半径内的点直接采用高斯核函数进行聚类,该方法解决了流行数据难以聚类边缘数据点的问题,同时也解决了噪声点干扰聚类问题。3.提出基于谱聚类的PK-means算法,将谱聚类应用到k均值算法中聚类高维非线性数据,该算法主要从两个方面对k均值做了改进创新:(1)给出自动确定初始聚类数目的办法,聚类之前首先计算每个数据点的相对密度,然后按照降序对所有数据点进行排序,选取一些密度相对最高的一些数据点对其进行聚类,并确定聚类数目k,最后利用此方法在UCI数据集上验证,聚类效果显著。(2)提出基于模糊的相似性度量方法,该方法采用FCM算法求隶属度矩阵的方法确定元素之间的相似性,即隶属度矩阵确定之后可通过判断两个不同点是否属于同一个集群确定两点的相似性,该相似性度量方法解决了谱聚类算法对参数敏感的问题,该算法在高维数据集上聚类效果显著。
其他文献
目前,在航空界,空中交通安全得到了广泛的关注,主要是由于交通安全直接关系着人身与财产的安全。在社会经济快速发展的背景下,民航与军航等均有着较快的发展速度,其飞行的流
出于避祸和独特的艺术追求,《红楼梦》在讲述石头前世今生的故事过程中,以玄幻之笔设置了石头、神瑛侍者、通灵玉、贾宝玉、甄宝玉5个符号来迷惑阅者眼目。究其实,它们不过是
<正>近年来,我国发生多起病死动物非法流入市场和病死猪乱扔乱弃事件,引起了社会各界对病死动物无害化处理问题的高度关注。加强对病死动物无害化处理及监管,已经成为国家生
新疆维吾尔自治区党委书记张春贤在自治区第八次党代会上提出旅游景点建设坚持要"素面朝天、还其自然"的要求,在这一思想指导下,阿图什天门规划以"环保优先,生态原真,可持续
本文以γ-(2,3-环氧丙氧)丙基三甲氧基硅烷(KH560)和水为原料,以正硅酸乙酯(TEOS)为改性剂制备出硅氧烷杂化薄膜材料,通过铅笔硬度法和紫外可见分光光度计考察正硅酸乙酯和水
<正> 一、前言 我国真空制盐厂目前采用的生产装置绝大部分为Swenson强制循环蒸发结晶器,所产盐的粒度仅为0.25~0.4mm。由于粒径太小,远远满足不了国民经济各部门对盐产品粒径
广告"以文谋钱"的创作目的自然导致广告翻译是一种目的性极强的创造性活动。为了实现特定目的,广告翻译彰显科学性和艺术性。本文从英语广告的语言特点与其翻译目的出发,力图
近年来,随着生活条件的改善和生活水平的提高,消费者消费心理和观念的升级为日化产业发展提供了活力,护肤用品、营养保健品正在成为未来新一轮市场消费的热点。总体来看,优质
网络在为广大高职学生服务的同时,也使越来越多的高职学生成为网瘾学生,严重的影响了高职学生的生活学习。本文通过结合实际情况,对现阶段高职学生的网瘾现状和导致网瘾的原
美国著名翻译理论家尤金·奈达博士的翻译理论对中国翻译界的影响是深远和广泛的,他的翻译思想及其重要著作为我国翻译界注入了一股新鲜的血液,形成了言必称奈达的局面。奈达