K-means算法的改进及其在文本数据聚类中的应用

来源 :西安科技大学 | 被引量 : 0次 | 上传用户:li5815736
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机水平的迅猛发展,特别是近年来“互联网+”、云平台等应用于各行各业,各类数据海量增长,而这些海量数据的背后往往蕴含着非常丰富的信息,依靠传统的数据检索、分析方法和数据管理模式已不能满足我们获取及管理数据的需要。因此,数据挖掘技术成为解决当今社会如何快速获取有用信息的方法之一。聚类分析作为典型的非监督的描述类统计技术手段,在现今各行各业中应用广泛。K-means算法是聚类分析中基于划分的动态聚类算法,由于其简单易操作,被广泛应用,但该算法有着自身的不足,如对孤立点和初始点敏感、适合发现球类簇等。在这些不足中,初始质点和孤立点直接影响着聚类算法的运行时间及运行效果,且目前尚没有统一的方法对孤立点及初始质点的选取进行说明。因此本文针对以上问题,主要做了如下改进:(1)首先根据孤立点对实验的影响程度及在统计学中标准分数和标准偏差的定义,数据结构差异较大的数据集在经过标准化处理及偏差统计后,数据集的相异度往往减少的现象,提出了利用标准分数与偏差去除孤立点的思想;其次根据K-center算法对孤立点较传统K-means算法鲁棒性强的特性,对传统的距离乘积法进行了一定的优化,再次,由于在统计学中常以标准分数及偏差来衡量整个数据集的离散程度,故提出了用最小的标准偏差代替数据集中最高密度的思想。最后用UCI数据库中Iris、Wine、Balance-Scale、Glass数据集进行仿真模拟,验证算法的可行性。(2)在实际应用方面,由于近年来“互联网+”的影响,数据呈“爆炸式增长”,而文本又多以信息载体的形式更多的出现在人们日常生活中,故本文重点以文本数据聚类为研究对象。针对文本数据的特点,本文在已有的研究成果上,尝试将标准偏差去除强孤立点及选取初始中心点的思想应用于稀疏数据。实验表明,本文算法比传统K-means算法在性能上有一定的提高。
其他文献
信息过载现象的发生,使得用户需要花费大量时间筛选有用信息,这无疑会大大降低用户体验。个性化推荐技术的出现,成为解决该问题的有效措施。关联规则挖掘作为当前运用较为成
课堂提问是初中物理课堂中常用的一种教学手段,是师生交流信息、情感的重要手段,同时它也是引导学生乐于思考,善于思考,促进学生可持续发展的关键。课堂提问是一门艺术,是一项技能
Swift-Hohenberg方程在分叉分析的研究中有重要地位.这个方程由Swift和Hohenberg于1977年首先提出,是一个研究卷波的Rayleigh-Bénard不稳定性的简单模型.无论是从分析方面或
一、黄瓜新品种1.津优35天津市黄瓜研究所选育,植株长势中等,叶片中等大小,主蔓结瓜为主,瓜码密,回头瓜多,瓜条生长速度快。早熟性好耐低温、弱光能力强。抗霜霉病、白粉病、
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
无穷维动力系统的研究,归其根源即有限维系统研究,至今已有五十多年的历史近期研究的一项重大成果是,发现相当多的带耗散的结构的偏微分方程解的长期性态与有穷维系统具有某种本
在运筹学、管理科学、信息科学、系统科学、计算机科学以及工程等众多领域都存在着客观的或人为的不确定性。伴随着这些不确定性,毫无疑问地存在着大量的不确定优化问题。然而
本文讨论了文献提出的地震震级分布,第一章介绍地震震级的基本概念,并介绍了极值理论在地震分析中的应用。本文第二章讨论文献[1]中的地震能量作为随机变量的统计分布,并由此
积分方程是近代数学的一个重要分支,数学、自然科学和工程技术领域中的许多问题都可以归结为积分方程问题。其中二次积分方程出现在现实应用问题中,对其研究的相关结果已经应用
边缘检测是图像处理领域的重要课题,小波分析是继Fourier分析、短时Fourier分析之后的新的信号分析技术。在本文中,首先简要介绍了小波理论的发展及图像的边缘检测的定义;然后