基于类内邻近度的聚类算法研究

来源 :深圳大学 | 被引量 : 0次 | 上传用户:lyfwgc2005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代,聚类分析是探索性数据分析不可或缺的工具.与分类相异,聚类是在无监督环境下进行的.在聚类分析中,人们通常认为彼此接近的点往往属于同一个类别,这就是所谓的聚类假设.通常情况下,同一类中的模式比不同类中的模式相似性更大.当我们把研究对象数字化为多维空间当中的点时,模式之间的相似性可转化为对应数据点之间的邻近度(或相似系数).根据聚类的这些特点,本学位论文提出了一种基于类内邻近度的聚类算法框架,并对此框架展开了深入的研究.本学位论文包含五个章节.第一、二章介绍了研究背景和几种常见的聚类算法,第三、四章是本论文的主要工作,第五章进行总结和展望.第三章定义了一类尽可能满足聚类假设的聚类算法框架.这些算法优化了测量类内邻近度的目标函数.邻近度用相似度函数或不相似度函数来进行度量.通过选择不同的邻近度函数和惩罚函数,我们可得到不同的聚类算法.一些著名的聚类算法,如K-means、核K-means和归一化切割就是这类聚类算法的实例.该框架不仅为现存的聚类算法提供了新的见解,而且为聚类算法的分析提供了统一的方法.我们通过将一般优化问题转化为一个迹优化问题,提出了一种统一的求解方法.第四章研究基于类内邻近度聚类算法的性质.我们提出了两种惩罚函数,且具有这两种惩罚函数的聚类算法满足一些重要的性质.接着,我们分析了在不同邻近函数和惩罚函数下聚类算法的鲁棒性.最后,通过实证分析验证了不同惩罚函数对聚类性能的影响.这些分析为今后聚类算法的设计提供了一定的指导作用.
其他文献
蛋白的氧化还原是普遍存在于生物体内的一种化学反应,可由物理、化学和生物因素诱导产生。生理水平的活性氧簇(Reactive oxygen species,ROS)对细胞增殖和生长有积极的调节作用,但如果超过某一阈值,将会严重损害DNA、蛋白质、脂质等生物大分子,造成细胞功能丧失甚至不可逆损伤。含硫氨基酸甲硫氨酸(Methionine,Met)是最易被氧化的氨基酸之一,氧化后的甲硫氨酸形成两种差向异构
既有研究表明保障性住区存在特定人群特征与居住需求,其户外公共空间存在供给与需求不匹配的问题,包括户外空间景观化、功能与设施配给不足、人均活动场地面积偏小等问题。这些问题一定程度上影响了居民的居民生活质量和居住满意度。本研究以保障性住区内的户外公共空间为研究对象,聚焦于居民时空间行为与户外空间关系,围绕着如何提升保障性住区户外空间供给与需求的问题展开。研究在对深圳保障性住房项目进行普查式调研的基础上
空间RDF数据上的Top k最相关语义地点检索查询结合了基于关键词检索和基于地点检索的两种思想。这种查询会返回一组语义地点,每个语义地点都是以一个以带有关联位置信息的地点实体节点为根节点的子图。该查询通过计算一个评分函数来获取语义地点和关键词之间的相关度。这个分数由每个关键词在结果树上出现的节点和地点节点(根节点)的距离组合可得。但我们观察到由kSP(Top k Sematic Place)算法查
对话系统是自然语言处理领域一个重要的研究课题。越来越多的服务商使用智能对话系统来帮助他们减少人工开销。同时,也有越来越多的用户愿意使用智能对话助理来帮助他们完成日常的各项工作。特别是近年来,随着深度学习等技术的发展,面向开放域的对话系统逐渐成为了研究热点。为了设计更好的对话系统,对系统生成的应答进行质量评估,是研究过程中不可或缺的一步。一个好的评估方法,将有助于缩小机器对话与人类之间的差距。然而,
随着万物互联时代的来临,不同于云计算时代,大量数据在网络边缘产生,有限的网络接入带宽和应用对实时性的要求使得远端的云计算中心不能对海量数据进行高效处理。多址边缘计算(Multi-access Edge Computing,MEC)技术作为云计算模式在边缘网络中的扩展,能够在边缘网络中支持资源密集、延迟敏感型应用,并为用户提供有地理位置感知的实时服务。但与此同时,新型信息服务和面向业务类应用的快速增
在现实生活中,人们常常需要对自己拍摄的照片进行各种操作,以实现期望的视觉效果。例如给照片中的人物化妆,改变图像中的呈现的时间或季节,按照某种特定艺术风格对图像进行渲染等等。这通常需要借助相应的图像编辑工具,例如Photo Shop等,并花费大量的时间和精力才能实现上述效果。图像风格转换技术可自动地实现上述图像编辑任务,降低图像编辑的操作难度,提升易用性。给定一张内容图像作为输入和一张图像作为风格参
深度学习是机器学习领域中的一个研究方向,是一种以复杂神经网络为基础架构,学习数据的内在规律和表示特征的算法。深度学习使计算机具有像人一样的分析学习能力——能够识别文字图像声音和挖掘数据内部特征,因此,深度学习已被广泛应用于搜索技术,数据挖掘,自然语言处理,图像识别,机器人导航,推荐系统和个性化技术中,同时也在其他相关领域中取得了许多成果。然而,现有的深度学习模型在计算上昂贵且占用大量内存,从而阻碍
近年来,随着现代信息技术的飞速发展,人类进入信息社会,越来越多现实应用领域涉及到多标签学习问题,如文本分类、生物信息学、图像识别等等。传统的单标签学习中,学习对象只隶属于单一类别,而多标签学习中,学习对象可同时隶属于多个类别,并且类别(标签)之间存在着复杂的关联性。多标签学习的目的是准确预测未知样本具有的标签子集,由于标签数量可能巨大且互相之间存在着复杂的关联性,因此,比传统的单标签学习具有更高的
随着计算机科学的发展,数字图像和视频成为人类获取外界信息的主要来源,而在现实世界的夜晚或者其他低光条件下,我们获得的图像和视频质量会降低,这包括亮度低、对比度低、噪声大等特点.这些图像和视频质量的降低将会直接影响到监控安防、夜间行车和生物医学等领域的发展.因此,随着计算机视觉等研究领域的不断深入,图像处理技术备受重视,其中低光图像增强就是计算机视觉的一项重要课题.对于一些经典的低光图像增强算法,参
数字图像处理近年来得到了极大的重视和长足的发展,并在科学研究、医疗卫生、通信方面得到了广泛的应用.在实际图像形成、传输的过程中,由于各种干扰因素的存在图片会受到噪声的污染.这严重影响了人们对数字图像的认识,所以图像复原在图像处理中十分重要.本文主要针对脉冲噪声(特别是椒盐噪声和随机值脉冲噪声),提出基于鲁棒分形图像编码的原始对偶算法和低秩加权核范数算法,数值实验也说明了这两种算法的有效性.具体研究