一种基于分层抽样的大数据快速聚类算法

来源 :计算机应用与软件 | 被引量 : 4次 | 上传用户:jinnsey
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对K-means算法处理大规模数据时算法迭代时间较长的问题,提出一种基于分层抽样的大数据快速聚类算法(A Large Data Fast Clustering Algorithm Based on Stratified Sampling,FCASS)。提出一种分层方法,可以快速将原始数据集进行分层,使得层内数据相似度较大,层间数据相似度较小;引入抽样时间函数,并求得各层样本量的最优分配方案;用K-means算法对样本集进行聚类,得到最终结果。在4个UCI数据集以及8个人工数据集上进行实验,结果表明
其他文献
目的1.了解护理人员的焦虑现状,探讨正念和情绪调节自我效能感对护士焦虑的影响作用。2.探讨情绪调节自我效能感在正念和护士焦虑之间的作用机制。方法采用情绪调节自我效能
目的探讨高龄肥胖患者施行腹腔镜妇科手术的有效性与安全性。方法收集2009年1月至2017年6月在上海交通大学医学院附属瑞金医院妇科手术治疗的高龄(≥70岁)肥胖(BMI>25.0)患者
本文详细地论述了在初等教育专业教学中进行生物实验教学改革的具体方法,即加强基础实验训练,提高学生从师能力;增加探究性实验,适应基础教育改革;开设自选实验项目,加强学生综合素
介绍了江源水电站3×14.0MW机组在型式、参数选择、配套主阀、吊车、油、气、水、水力测量系统的优化设计和设备选择。
简要介绍了甘肃省水电站建设中第一座完全地下式厂房-小孤山水电站地下厂房洞室群的总体布置及设计特点。
小型水电站大多分布在山区,容量小,设备简单,且布局分散,运行管理很不方便。对发电机采用一机一屏的计算机远程监控系统、简单可靠的继电保护以及切实可行的冷却方式进行了探讨。
从心理健康的重大意义和深层涵义出发,针对当今新形势下大学生中普遍存在的不良心理问题,分析了影响大学生心理健康的因素,并往适时地提出了在高校中培养大学生心理健康的对策。
通过对辽宁省及本溪市会计执法检查,揭示了会计法执行情况和会计信息失真的具体表现,提出了改进的几点建议.