基于成对约束的半监督聚类算法研究及其并行化实现

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:zjc823455041
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为数据挖掘领域中的一种重要方法,聚类分析能够发现数据对象自然的分布结构。它根据数据对象之间的相似性,把数据对象分割成簇,并保证同一簇内中数据的相似性尽可能大,而不同簇间数据的相似性尽可能小。从机器学习的角度来看,聚类分析是一种无监督的学习方法,它按照一定的优化准则对数据进行分割,对数据的分析不需要知道其相关的背景知识。但是,现实生活中我们对数据的信息并不是一无所知,并且我们发现通过这些少量的已知信息能够找到数据对象标识或相互之间的约束信息。半监督聚类就是在传统的无监督聚类算法中引入先验知识来指导聚类过程,提高聚类结果精度。本文选择引入成对约束作为先验知识来协助指导聚类过程,分别建立了Must-Link和Cannot-Link约束组,用以描述两个样本数据间的关系。其中,Must-Link代表两个样本数据必须被分配到同一划分,而Cannot-Link则代表两个样本数据必须被分配到不同的划分。详细介绍了基于成对约束的半监督聚类算法Cop-Kmeans,对算法比较常见的约束违反的问题,提出了全新的改进方法,在解决约束违反的同时,算法的运行时间效率也优于传统的改进方案。此外,针对成对约束自身特征可能给聚类性能带来的不良影响,进一步提出了相应的改进方案,能够最大限度的削弱这种不良影响,从而能够在一定程度上改善聚类结果精度。考虑到当聚类对象是一个大数据集或者高维数据类型时,传统的单机串行聚类算法无论是在内存或者运算能力都无法满足实际需求。本文选择运用“云计算”思想,采用并行处理方式处理大规模的数据集。我们利用MapReduce计算模型对改进的半监督聚类算法进行并行化实现,并在Hadoop搭建的并行处理平台上处理大数据集。实验结果表明,采用并行计算方式能够显著提高聚类效率。
其他文献
可视化技术将数据以图像、动画等直观方式呈现给用户,用户可查看属性的特点、相关性、数据的分布等,更好地理解数据中隐藏的信息,从而辅助决策。随着数据规模的增加,可视化技
心理学研究指出人的感情主要通过人的面部表情表达,因此,表情是人类情感交流的重要途径之一,表情识别研究对于实现拟人化的人机交互具有重要的理论和现实意义。目前的人脸表情识
联机分析处理(Online Analytical Processing, OLAP)支持分析人员和决策者从多个角度对数据进行交互访问,但随着数据仓库数据量加大,用户通过OLAP交互式数据浏览和分析变得复
  运动目标检测与跟踪是计算机视觉领域里的一个重要的研究课题,在高级人机交互,视频会议,自动化工业,安全监控和图像检索方面有着广阔的应用背景和潜在的经济价值。在目标
SAP(System Applications and Products in Data Processing,企业管理解决方案)和OA(Office Automation,办公自动化)系统有着不同的技术特点和优势,如果两者恰当集成,以OA强大灵活的
随着数字设备的快速发展和在线媒体的不断升级,越来越多的人愿意在网上发布视频来分享他们的日常生活。基于越来越巨大的短视频数据量,人们不可能花时间去逐一观看所有的视频,因此亟需一种有效的方式,让机器可以自动分析视频中的信息,并对视频内容进行归纳、整理,从而让观众可以更轻松地享受这些视频。视觉文字描述生成在多媒体领域中引起了广泛的研究关注,这一任务是指给机器输入一段视觉内容,模型可以自动的生成一句用于描
学位
运动人体检测与跟踪技术是智能交通和计算机视觉领域的关键技术,近年来受到国内外学者的广泛关注与研究。运动人体检测与跟踪技术在电子监控系统、智能交通管理、军事等多个领
如果科学家们有效地选择科研项目并公平分配荣誉,那么科学界将因此受益。脑力分配模型可以用于研究这个问题。这个问题是由金切尔首先提出并展开研究的。然而,金切尔提出的模型做了很多假设,其中很多假设与实际情况相差甚远。我们在论文中的主要贡献包含三个部分。首先,我们对金切尔提出的模型中的参数的误差对系统的影响提出了理论解释。由于在一般情况下建模的复杂性,我们在论文中主要分析了一些包含少数的科学家和项目的特殊
  天文技术的发展对天文领域有着重要的意义,如天文新现象的发现、天文理论模型的论证等都是建立在天文新技术之上。天文新技术的应用都有着极大的计算需求,如何有效满足这
云时代迅猛而来,作为IT产业的下一代体系结构,云计算不仅仅是简单的将应用软件和数据库放到中心化的大规模数据中心,而是具有更大的灵活性,允许任意端点参与云服务交互,这点