高维海量数据聚类算法研究

被引量 : 0次 | 上传用户:jhwangseagull
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为数据挖掘中的一项重要技术,聚类分析具有广泛的应用领域。同时,聚类也是数据挖掘领域中一个相对比较困难的问题,而高维数据集的聚类算法己成为当前研究的热点。由于“维度困扰”的存在,目前绝大多数算法在高维数据空间的情况下都无法得到理想的效果。此外,高维数据中含有的大量的随机噪声也会带来额外的效率问题。目前,子空间聚类算法是对大规模、高维数据集聚类的有效方法之一。本论文的研究工作着重分析了传统聚类算法在处理大规模、高维数据集的困难和问题,比较了高维数据集聚类方法的优劣,从理论上论证了子空间聚类算法在处理大规模、高维数据集的优势。在此基础上,进一步对已有的子空间聚类算法ENCLUS进行了分析,指出ENCLUS算法存在的若干不足,即:ENCLUS在划分网格时没有或者很少考虑数据的分布,而且可能稀疏网格中的数据点会错误的作为孤立点处理,为此,我们在论文研究工作中提出了优化的基于网格的聚类算法(OGBS),通过对网格进行二分以得到平滑的类边界,同时更好的防止了数据点的误分。我们将此算法应用于面向广西区土地分类项目中,并结合高光谱遥感数据的空间连续性的特点,利用数据点的空间相邻性进行孤立点检测,得到了更加精准的聚类结果,为更好的利用广西区的土地、环境和气候资源提供了更好的现实依据。本文从理论和实验两方面证明了在处理大规模、高维数据集时,算法OGBS比算法ENCLUS在聚类的精度上有了很大的提高,可以得到平滑的边界,在时间效率上没有太大的变化。
其他文献
工商行政管理部门是社会主义市场经济体制下政府的重要组成部分,它负有行使国家行政权力、保障经济发展的职能。根据1998年国务院批准的国家工商局“三定”方案,其主要职能是对
当前,我国已进入财政体制改革的重要阶段,全国各地相继实行会计集中核算制度、国库集中收付制度等改革。会计集中核算制这种管理模式是基于委托代理动因论而产生发展的,目前
《孟子》是先秦一部重要的儒家经典,其散文艺术性和成就在诸子中也是首屈一指的。本文试就其散文的论辩艺术进行一下探讨。全文分五个章节。绪论孟子其人及生卒年月的界定,历代
目的评价CT与MRI对诊断基底动脉尖综合征(BATS)的能力并计算这两种影像技术的检出率。方法8例BATS患者最初于临床症状出现后24h内均经CT与MRI头颅扫描,2~5d后,全部病例又经CT复
本研究以奥苏贝尔的有意义言语学习理论为基础,通过对比中学英语课与生物课的学习内容,分析了外语学习不同于生物学习的独特之处。符号、概念和命题学习是有意义学习最基本的
平台罗经是一种精密复杂的导航仪器,它可以为大中型水面及水下舰船的导航、武器装备、指挥控制等系统提供精确的航向和水平基准信息,还可以显示舰船的姿态角和推算舰位。激光
磷石膏是生产磷铵过程中产生的一种废料。作为一种工业废料不仅占用大量空间,制约企业发展,而且对环境有着严重污染。将磷石膏用于当地公路的建设,不仅可以解决磷铵企业废料的再
本文通过共时性研究和历时性研究对作为“地方性知识”的云南大理白族本主崇拜进行分析,采用结构功能主义的视角,讨论本主崇拜如何建构和传承“地方性知识”,进而揭示其教育功能
穿心莲为解毒消炎类临床常用药。大量的药理研究发现,穿心莲中的脂溶性成分穿心莲内酯不仅具有抗炎、抗菌、抗病毒、抗癌、抗心血管疾病。本论文以酶解前处理超声提取法作为穿
目的观察异种脱细胞真皮基质联合邻位皮瓣I期修复眼睑恶性肿瘤切除术后眼睑全层缺损的临床疗效。方法 35例(35眼)眼睑恶性肿瘤患者,其中基底细胞癌21例,睑板腺癌13例,鳞状细