基于大数据和高维数据的聚类方法的研究与设计实现

被引量 : 0次 | 上传用户:qqqqqqwer
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在数据挖掘中,传统的聚类分析方法在对于大数据量和高维数据空间时,由于数据量的大大增加,导致聚类的传统算法对数据计算和处理时,对计算机的内存空间也提出巨大的挑战。而在生物,医疗,购物中,往往面临着大量高维数据库的聚类和分类处理,这些高维数据由于在高的维度空间中,在传统的基于距离和密度聚类方法中,无法以基准函数来确实其聚类簇的类别,所以当数据属性处于多维空间时,没有太好的效果或者无法得到理想的结果。本文通过了对聚类的传统算法的分析,对大数据量聚类处理和降维研究,设计实验数据集,以实现局部优先聚类,聚类融合,和一些经典维数约简的降维算法,以得到比较理想的聚类结果,在当今互联网应用中具有非常深远的意义。以多个小数据集为例,模拟对大数据集局部分解的子集,然后对各个子集进行聚类处理,把局部聚类结果向大数据集的全局聚类结果进行融合,以实现从局部到全局的聚类融合结果。并测试了其稳定性。在面对高维数据空间时,本文采用当前维数约简算法中具有代表性的PCA主成分分析法进行降维,对模拟的20维数据集降至13维,给出了具体的实验分析。该实验在visual studio2010开发平台中实现,用纯C编写实验程序。实验结果在DOS界面下显示。为保证数据处理的准确性,实验设计对各个局部聚类的聚类中心值的精确度很高,以便减少误差。
其他文献
随着科学技术日新月异的发展,其应用维度不断拓宽,网络空间中的变革更是以以往几倍、数十倍的速度不断改变和影响着人们的生活方式。然而网络在给我们带来惊喜的同时,也隐藏
为了保证自适应性以及生成网格与总体网格之间的协调性,针对结构规则的复杂局部特征的网格剖分过程,提出了几何特征的六面体网格剖分方法.首先,分析了几何特征的类型以及网格
投资决策是企业经营和管理过程中最为重要的财务决策,涉及到公司资金筹集,资源配置,战略选择等关乎企业生存与发展的方方面面,甚至关乎整个资本市场的健康发展。有大量研究表
气相色谱仪的气路系统是一个载气连续运行、管路密闭的系统,对气相色谱的分析起着关键作用,载气压力异常是气相色谱仪的气路系统常见问题,本文就气相色谱仪载气压力异常原因
土地是人类赖以生存的重要物质生产资料,是人类社会一切生产、生活活动的载体。随着我国经济社会以及工业化、城市化的高速发展,大量土地资源向城乡建设用地转化,耕地资源数量锐
作为生活在海外的女性作家,严歌苓的小说在很大程度上延续了海外华人女性作家的共性特点,与生活实际格外贴切,所构造出来的女性形象也性格鲜明。因此,这样一种生活处境成为研
<正>2011年6月,《西咸新区总体规划》在国务院新闻办举行的新闻发布会上正式对外发布,这将西咸新区的建设上升到了国家战略层面。一时间"西咸新区能否带动大西北经济的发展?
以勐腊县森林资源规划设计调查成果为依据,对其森林资源现状进行了论述;有利于正确认识勐腊县的森林资源结构特点,为指导该县科学经营和管理森林、制订林业发展规划、进行森
本文从居室陈列品的基本理论展开研究,通过对居室陈列品的逐步了解,理顺其发展过程、发展现状及达到空间优化目的的创新方法与原则。这个过程中需要了解陈列品是伴随着物质社会
以济南市23家企业1957名科技人员为被试,采用赖斯工作压力问卷、社会支持评定量表和焦虑自评量表进行测查。结果显示企业科技人员工作压力偏高,焦虑水平较高;工作压力对焦虑