【摘 要】
:
在大量没有标签的数据集的情况下,聚类在找出数据集的基本结构和特征发挥着重要的作用。并且很多算法都能够识别数据集中形状不规则的簇,例如基于密度或网格的算法。这些算法
论文部分内容阅读
在大量没有标签的数据集的情况下,聚类在找出数据集的基本结构和特征发挥着重要的作用。并且很多算法都能够识别数据集中形状不规则的簇,例如基于密度或网格的算法。这些算法在设置了合适的参数之后会得到非常好的聚类效果,然而这些参数并不容易得到。A.Laio提出一种名为DP的算法,其主要优势是能通过决策图非常快速地找到密度和距离都较大的点并把这些点作为中心点,并且通过设置截断百分比降低了参数对聚类效果的影响。其中有三个主要问题,一是找出的候选中心点需要再次人为判断才能确定,这就可能导致找出错误的中心点;第二,分配点到哪个簇时只依赖于最近的一个密度比他大的邻居,这种方法也会导致误分,也有可能导致聚类边界不清晰;第三,截断百分比难以合适地选择(不同分布的数据集在相同的截断百分比上性能会有较大差别)。后面章节详细解释可能出现的这几个问题。为了解决这些问题,本文提出了一种改进的基于层次方法的DP算法。这是一种自顶向下的一种层次聚类算法,其主要原理是利用两个中心点之间的密度较小来分裂簇来达到寻找中心点的目的。这种算法有个优点:第一,能够自动确定中心点并能非常准确地划分聚类边界,并且能较好地解决不均匀分布的问题,能适应更加复杂的数据集;第二,大大减少了原来DP算法中的截断百分比的设置的敏感度。再次聚类过程中,只需要根据点之间的连通性进行簇的合并就行了。另外通过实验对比,本文提出的算法确实具有较好的性能。
其他文献
浮游植物的生命活动所消耗的能量源自太阳光能,光合作用是浮游植物固定光能的最主要形式。近年来,在包括浮游植物和细菌在内的海洋微型生物中发现的视紫红质被认为是光能捕获
近年来,随着人们对数据处理能力、计算能力的要求不断提高,云计算应时而生并有了非常快速的发展,并且逐渐应用到学术领域、商业领域等等各个领域。海量资源、按需付费使得云
石板作为石结构建筑重要的受弯构件之一,存在脆性断裂的安全隐患。为提高石结构建筑物的安全性,提出了一种预制CFRP筋增强板加固石板技术。相比于已有其它加固方法,预制CFRP
群孔微差爆破是目前控制爆破中最常用的施工方法之一,大量运用在基坑开挖、水利水电项目、露天矿物开采和公路铁路等工程中。为保证工程爆破的安全性,需在爆破前预测其引起的
随着现代电力系统的规模越来越大,引起大容量发电机组的增多,并向超临界化方向发展,也造成了包括机组安全运行与系统安全运行间的协调、电压崩溃、电力系统运行稳定性等问题
随着以风光为主的新能源发电迅速发展,源荷不协调导致的弃风与弃光问题越来越严重,微电网作为新兴的电网运行模式,为风光发电就地消纳提供了新的途径。随着相关政策的出台,环
为揭示大兴安岭地区重度火烧迹地在植被恢复后土壤氮素分布特征,本研究选取以1987年“5·6”大火后的重度火烧迹地经过人工恢复、人工促进天然恢复和天然恢复的林分土壤为研
在依法治国、依法执政、依法行政共同推进,建设法治国家、法治政府、法治社会的大背景下,我国司法公信力建设正成为学者和社会公众讨论的热门话题.社会公众的民主意识、法治
随着计算机技术和人工智能的快速发展,对于智能化的需求越来越强烈,尤其是对复杂动态场景的感知与理解。对于家庭生活、办公室、超市、工厂车间等这种相对封闭的空间,室内场景的三维重建作为一个重要的应用方向,也是室内机器人在复杂环境下实现精准导航规划与场景物体的识别的应用基础。然而室内复杂环境存在遮挡物和光照以及相机本身等因素的影响,快速、准确地完成室内三维重建是亟待解决的技术难点。本文的具体工作如下:首先
多线性算子中所要研究的问题主要包括多线性算子有界性问题、多线性算子的交换子有界性问题及其加权不等式问题等。这些问题在L_p空间、Morrey空间以及Herz空间等空间中已经有了许多研究,而在Orlicz空间中的研究比较少,而Orlicz空间是L_p空间的涵盖,所以在Orlicz空间中研究多线性算子的有界性问题具有一定的学术价值。全文共分为四章:Orlicz空间、多线性算子、多线性分数次算子在Orl