最优密度聚类与双统计量有效性分析

来源 :天津大学 | 被引量 : 0次 | 上传用户:COMMA87730030
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是机器学习中的重要研究方向之一,相对于监督学习和半监督学习,聚类能够根据数据集本身的结构特性将样本归类,并能够发掘数据集样本间隐含的信息,在数字化和信息化的当今具有重要的研究价值和广阔的应用范围。聚类分析相关研究主要包括数据预处理、聚类算法和聚类有效性指标等方面。聚类分析研究发展至今,已有许多学者针对各个研究方向和不同应用场合提出了各种算法,不同算法具有各自的优势,同时也存在各自尚待解决的问题。在数据约减算法方面,目前常用的样例约减算法无法较好地反映数据集的结构特性,或者存在依赖使用者经验的参数;聚类算法方面,现有的许多算法通常也存在需要人为确定的参数,无法实现完全非监督的聚类过程;聚类有效性指标方面,目前被提出的指标大都针对特定的聚类算法,对算法的普适性不强,并对应用数据集对象有所限制。本文在对现有算法进行研究分析的基础上,对以上三个方面各提出了新的或改进的算法,主要研究成果如下:首先,针对目前的数据约减算法不能较好地反映数据集本身结构特性的问题,提出基于二分密度的约减算法,该算法能够在没有参数的条件下,实现对数据集的样例约减,达到去除噪声、减少样本量的同时,保留数据集本身结构特性的目的。其次,针对密度峰值聚类算法需要人为确定截断半径值的问题,提出最佳密度半径的密度峰值聚类算法。该算法定义了新的密度分辨率的概念,在密度分辨率达到最大时的截断半径即为使得密度峰值聚类算法聚类结果最好的截断半径值,在保留原算法高效、可聚任意形状类的优点的同时,实现自适应确定截断半径值。采用实验验证并对算法的时间复杂度和空间复杂度进行了分析。最后,针对现有的有效性指标对应用数据集的结构特性有所限制的问题,提出基于双统计量的聚类有效性指标。该指标创新性地将边界点应用于聚类有效性判别,结合改进的Gap指标,能够实现对不同特性数据集的最佳类数判定,并能够不依赖于聚类算法实现聚类结果评价。对以上提出的算法均采用不同特性的人工数据集和UCI公共测试平台的真实数据集进行验证。
其他文献
姿控飞轮是轻型敏捷型军用卫星姿控系统的核心部件。近年来,采用低密度、高强度、高模量的碳纤维复合材料进一步改善飞轮的转动惯量-质量比等性能已成为主要趋势。国内卫星姿
随着中国旅游业的快速发展以及国际声望的日益提高,近年来到中国旅游的外国游客越来越多,根据世界旅游组织的评估,中国将在2020年发展成为世界排名第一的旅游目的地国家。入
在人们的生活中存在大量的不平衡数据。研究表明,传统以最大化分类准确率为目标的机器学习算法倾向于将待测试样本划分为多类,而忽视少类的识别率。然而,通常少类样本具有重
天然气储量丰富、容易形成预混合气、颗粒物排放少且抗爆性好的特点使其适合作为汽车代用燃料。由于天然气层流火焰传播速度慢,导致天然气发动机燃烧持续期长,后燃严重,甚至
得益于因特网和计算机软硬件技术的高速发展,以及三维建模技术的日渐成熟,相比于文本和二维图像,三维模型不仅更完整地包含了物体自身的信息,同时也体现了模型的空间信息,相
目标检测作为计算机视觉领域中的一个重要研究课题,是识别和定位任务的统一。目标检测的主要目的是定位图像中感兴趣的目标,既要给出目标的边界框位置,同时又要准确的判断每
骨癌痛是由于原发肿瘤生长或转移致骨破坏所引起的自发性或诱发性疼痛。约70%晚期乳腺癌患者出现骨转移,40%患者遭受顽固性疼痛,严重影响长期生存率。目前骨癌痛的临床阶梯式
压力传感器在可穿戴设备和电子皮肤等领域具有非常广阔的应用前景。为了满足实际应用的需要,压力传感器需具有高灵敏度、低检测限和低成本等优点。本论文研究一种基于聚吡咯(P
近年来,建筑行业对节能减排的要求越来越高,整个建筑行业都在进行产业升级,伴随着中国进入经济新常态,我国对屋面用保温材料也提出了更高要求。硬质聚氨酯泡沫塑料(硬质PUR泡
“爱”是人类永恒的话题,每一个“个体此在,”都是“爱,”的思考者与践行者。而古往今来,一切伟大之人,必然对“爱”有着深刻的洞见,又必然要具有强大的“爱之能力”。作为“