基于边界划分的聚类算法研究

来源 :长春工业大学 | 被引量 : 0次 | 上传用户:calvin1987
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类是无监督学习中用于数据挖掘的一种重要的分析方法。通过探索数据间的相似性或数据分布的特性,聚类算法可以实现最小化同类之间的差距,聚集彼此相似的类;最大化不同类之间的差距,切割彼此远离的类。因此,如何通过挖掘数据总体和局部的信息,更精细地筛选和识别边界,以区分数据的主体与边界,主动判断多种数据分布类型的真实簇是一个具有挑战性的研究方向。其中涉及类边界点的识别,聚类数目的确定,数据分布结构的判断和时间复杂度等具体问题。本文以识别类边界点为突破主线,以密度和网格为切入点,展开了深入研究,提出了基于三角近邻连接、特征提取和局部离散系数的三种新颖的聚类算法。通过挖掘和分析数据间潜在的结构特性剥离出边界点,不仅能够满足有效地实现数据的分割和聚合,而且降低了人为因素对算法的干扰。此外,本文将提出的聚类算法应用于人脸识别、降水量分布和图像分割领域。具体的研究成果有以下几个方面:(1)基于三角近邻连接的聚类算法本文提出了一种基于三角近邻连接思想的新奇聚类算法(TNCC)。提出TNCC算法的动机如下:1)利用近邻参数定义搜索的步长来遍历数据获得代表性的核心数据点,减少不必要的时间计算成本,2)解决聚类数目过度依赖外部因素的缺陷,识别彼此邻近类和低密度区域的边界,实现有效的分割数据,3)识别和判断边界类型,实现复杂数据的有效聚类,提高算法的准确度。该算法在一个初始点的基础上,以变化的步长不断寻找核心数据点,不断扩大其邻域范围,根据数据点间的距离和近邻属性构成三角近邻关系,形成类剪切点,用于分割和聚合子类。通过在14个合成数据集和9个真实数据集上的实验,验证了TNCC算法的可行性和聚类效果。通过在多个合成数据集上的交叉验证和Friedman统计检验证明了本算法的泛化能力、稳定性和差异性。在人脸识别上的应用进一步证明了TNCC算法的实用性。(2)基于提取数据特征的滚动迭代聚类模型本文提出了一种基于圆形划分数据的聚类模型(ROCM)。提出的ROCM算法的动机如下:1)以变化的圆形结构划分数据,2)克服选择截断距离和聚类数目的困难,3)提高算法处理低密度区域和边界数据的能力。ROCM依据数据分布的局部特征将数据划分成半径不同的圆形结构,最大化地聚合相关的圆形结构数据。根据圆形结构的半径大小和圆内数据的个数,得出每个圆形结构代表点的广义局部密度,利用密度峰值聚类来动态确定聚类中心,打破了人为地选择截断距离的限制;代表数据点之间的相关程度来确保聚类中心向外扩张,自适应地获得子类和边界点,实现了类与类之间的分割;联合尺度保障了子类之间的有效聚合。在数据集上的实验证明了ROCM算法的合理性和有效性,能够有效地识别此靠近类的边界,防止了人为因素对参数调节依赖的问题。(3)基于离散系数的聚类中心选择算法本文提出了一种以局部离散系数和顺位距离为载体的自动选择聚类中心的算法(VCCS)。提出VCCS算法的动机如下:1)分割相似性差的边界数据,主要分析稠密数据间的关系,2)避免手动调节聚类中心和数目的问题,减少参数的设置和降低时间复杂度。VCCS定义了一个对数惩罚密度来评估数据点间的相似性,揭示点与点之间的离散程度。本文从离散密度和联合顺位距离的角度识别边界点,有效地降低了类与类的关联,避免了连锁反应;自适应地选择多个聚类中心,扩大其邻域来选择最终的聚类中心,有效地处理分布不均匀数据区域的分类问题。在15个数据集和图像分割应用上的实验表明,本算法具有可执行性,能够有效地识别彼此靠近类的边界,对非凸型和不均匀数据的低密度区域聚类中心具有更高的识别性。参数敏感度实验结果表明,在参数取值范围较大的情况下,本算法的性能没有随着参数的变化而发生较大范围波动,体现了算法的稳定性。
其他文献
<正>今年以来,果洛藏族自治州宣传思想文化战线高举中国特色社会主义伟大旗帜,勇担“举旗帜、聚民心、育新人、兴文化、展形象”的职责使命,以学习宣传贯彻省第十四次党代会精神和迎接党的二十大为主线,以“四大专项行动”为抓手,聚焦聚力固底板、补短板、锻长板,努力开创全州宣传思想文化工作新局面。理论武装不断加强。坚持把学习贯彻习近平新时代中国特色社会主义思想作为首要政治任务,严格落实“第一议题”制度,创新中
期刊
为解决某企业兰炭废水酚氨回收装置运行过程中出现的COD和总酚去除效果差、运行不稳定和副产品品质不合格等问题,分析了原有装置的运行情况和问题的产生原因,针对性地进行了循环氨水系统改造,并新增聚结过滤器+高精度油水分离器改造除油单元,新增脱酸单元及相关配套塔器改造脱氨单元,用甲基异丁基甲酮(MIBK)替代原有的萃取剂,并新增相关配套塔器改造脱酚单元。运行情况表明,改造后装置的出水水质为pH=6.68,
期刊
在明清时期,妇女诗词的创作数量大幅增加,甚至超越了历代妇女诗词的总和,达到了史无前例的井喷式繁荣状态。徐灿是明清时期的著名女词人,陈廷焯称赞她的词“婉转娴雅,丽而不佻,足以与李易安并驾齐驱,俯视朱淑真”。可见其词作成就之高。本文从女性书写的角度对徐灿词进行较为细致探究,有利于了解徐灿在女性书写中寄托的政治情怀与女性情思,感受徐灿对女性的关注,了解她的创作心境,加深读者对徐灿的认识,与此同时,有利于
学位
核燃料包壳锆合金的耐腐蚀性能是决定包壳寿命的关键因素,锆合金表面的氧化膜对耐腐蚀性能有着重要影响,合金元素的添加通常会引起锆合金氧化膜相组成发生变化,进而引起耐腐蚀性能的变化。Sn和Nb是商用锆合金中常见的合金元素,因此Sn和Nb影响锆合金氧化膜相组成的变化规律及其对氧化膜相变产生影响的机理对理解锆合金腐蚀有着重要的意义。本文基于热力学和动力学原理,采用相图计算,第一性原理计算、随机势能面等方法,
学位
作为冶金和化学领域的重要原材料,兰炭在生产过程中会排放出大量的有害物质,制约兰炭行业的发展。经过分析兰炭废水的来源和水质特性,总结了兰炭废水深度处理的多种方法的特点,后对其进行了综合性的分析。兰炭废水处理流程复杂,处理成本高,各方法易出现的问题影响其达到最佳去除效果,且污水排放并未完全达标,是制约兰炭废水实现“零液排放”的主要原因。在推进兰炭废水深度处理的进程中,相关管理机构应不断完善行业标准体系
期刊
随着“健康中国”战略以及“全民健身计划”的提出,我国国民健身意识普遍提高,健身运动成为许多人的日常生活习惯。大学生的身体健康对民族振兴和健康中国战略起着关键作用,关注大学生健身行为是践行健康中国战略、全民健身计划的应有之义。当代大学生身体健康问题突出,健身行为习惯较差,其生活方式与运动习惯都亟待改进。在“互联网+大众体育”的背景下,健身信息新媒介接触日益成为健身传播的重要途径,也是影响大学生健身行
学位
近十年中国文学创作中的乡村叙事伴随着精准扶贫、乡村振兴以及美丽乡村建设等战略的推进,展现了新的时代风貌与“乡土”特征。一方面,乡村叙事在内容与方法上有了新的变化,产生了不同于上一个百年的“乡土”色彩;另一方面,近十年的中国文学创作紧随时代发展,其乡村叙事呈现出了新的特征。纵观近十年文学创作的乡村叙事,其内容、方法、特点均产生于时代大潮下,并以观照的形式对新时代的风貌形成反哺。前言部分对于百年乡村叙
学位
降水在网格要素预报中最为关键和重要,降水的预报表现直接体现了网格化要素的预报能力和水平。首先回顾了数值天气预报中针对降水的各种检验方法,主要包括:基于二分法列联表的经典检验,基于属性和尺度特征的空间检验,集合预报检验以及针对极端稀有事件的检验技术。其次归纳了降水统计后处理订正技术:一是基于模式输出降水产品的直接统计后处理和在模式输出各种要素基础上客观诊断的间接后处理;二是针对集合预报的参数化和非参
期刊
随着焊接自动化技术的飞速发展,以点焊机器人为核心设备的自动生产线已经广泛应用于机械生产的各个领域,日渐增多的自动化设备和生产资料使得工位焊接环境也日益复杂。因此,如何在保证生产效率和焊接质量的前提下,对担任复杂任务的点焊机器人进行路径及轨迹规划成为当前研究的热点。本文以轿车白车身曲面工件为研究对象,进行机器人避障、避碰和避奇异的焊接路径及轨迹规划方法研究,并对提出的规划方法进行仿真与实例验证。论文
学位
唐代是诗的国度,中唐是继盛唐诗歌后又一座高峰。“诗称国手徒为尔”,有着“诗豪”“国手”之称的刘禹锡,是中唐诗歌承前启后的关键性人物,异于韩孟的奇险,别于元白的浅俗,刘诗以其独特的审美艺术性在唐诗史上独树一帜、独标一格。诗歌是审美的艺术,审美研究历来是古典文学关注的重点,刘禹锡诗歌的研究者不在少数,但其研究的广度和深度还有许多挖掘空间,因此全面深入地对刘禹锡诗歌进行审美研究显得尤为重要。本文以审美研
学位