半监督聚类并行化实现的研究

来源 :长春工业大学 | 被引量 : 0次 | 上传用户:myweiyong168
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为一种重要的数据分析方法,聚类分析按照某种相似性度量将样本对象划分到不同的聚类中,并要求同一聚类中的样本相似性尽可能地大,而不同聚类中样本相似性尽可能地小。同时,作为一种无监督学习方法,聚类分析在对样本进行划分前并不了解样本的目标属性。但是在许多实际应用中,在获得大部分未标记样本之外,通常还可以获得少部分带有监督信息的样本,半监督聚类便是研究如何利用这些少量的监督信息来指导未标记样本的聚类过程。半监督聚类中通常包含两种类型的监督信息,一种是样本的类别标记,另一种是一对样本的成对约束关系,其中样本的类别标记结合样本信息可以构成Seeds集。为了克服传统半监督聚类算法中监督信息使用不充分的问题,本文结合使用了样本的类别标记和成对约束这两种监督信息指导Kmeans聚类过程,提出一种基于Seeds集和成对约束的半监督聚类算法SC-Kmeans(Kmeans based on Seeds set and pairwise constraints)。算法首先利用Seeds集对成对约束规模进行扩充,然后根据Seeds集计算初始聚类中心,优化聚类初始化效果,最后将扩充后的成对约束集引入算法中指导样本的划分过程,要求样本在划分过程中不能违反成对约束条件。同时,为了获得更高质量的监督信息,本文通过对监督信息中所含信息量的分析和判断,将主动学习算法引入到SC-Kmeans中,设计一种主动半监督聚类算法Active SC-Kmeans。该算法使用最远距离优先选择策略对未标记样本提出标记请求,选择与Seeds集中样本距离最远的未标记样本对象进行标注,能够通过尽量小的代价选取出信息含有量较高的监督信息,提高SC-Kmeans算法聚类准确率。针对目前聚类算法处理大规模数据集时间效率较低的问题,本文利用Spark并行计算框架,将提出的SC-Kmeans算法实现并行化处理。根据SC-Kmeans算法需要频繁迭代运算的特性,应用Spark计算框架基于内存的计算方式,设计出SC-Kmeans的并行化算法Spark SC-Kmeans。通过在UCI三个数据集上实验表明,本文提出的主动半监督聚类算法Active SC-Kmeans能够获得信息含有量更高的监督信息,有效提高聚类准确率。同时,将人工生成的大规模数据集作为测试数据,在Spark集群中实现了SC-Kmeans算法的并行化,证明Spark SC-Kmeans算法对数据集规模有良好的适应性,能够有效地缩减聚类时间。
其他文献
在营销领域,怎样使用有限的资源产生最大的营销效果是其追求的目标,而选取最初始的营销对象就显得尤为重要。影响力最大化原则就应运而生。影响力最大化就是实现选取固定数量的营销对象,达到最大的影响力传播的目的。影响力最大化在营销领域的“口碑效应”现象、“病毒式营销”等推广方式上得到了充分的体现。研究人员根据节点在网络中的影响力传播规律,建立与之相适应的影响力传播模型,并根据不同模型得出具体影响力最大化算法
互联网信息的爆炸式增长、信息的种类变得纷繁复杂以及新兴电子商务服务的出现使得信息过载的情况变得越来越严重。因而在信息过滤工具中,推荐系统的地位也变得越来越重要。
操作系统是应用系统正确、安全运行的基础软件。微内核操作系统可提高系统的可扩展性,增强系统的可靠性和安全性,有很好的应用前景。系统调用是操作系统提供给用户的唯一接口
目前,E-Learning在教育与商业中的应用越来越普遍,鉴于在E-Learning环境中每个学习者的学习能力、学习兴趣、学习习惯、学习基础、努力程度等方面都存在着巨大的差异,在当前
任务调度是网格研究中所必须解决的一个关键问题,也是网格应用的基础。为了充分利用网格的大规模计算能力,提高计算效率,研究网格环境下的的任务调度问题对于网格的应用显得
随着我国经济的快速发展和全球信息化技术的不断提高,人们对生产和生活的品质要求也越来越髙。在即将到来的物联网时代,传统照明设备由于其控制状态单一、控制线路复杂、耗能多
社交网络的流行改变了人们的交流方式,越来越多的人喜欢在上面分享并获取各类信息,为了能有效地帮助用户发现其真正感兴趣的地点,出现了基于位置的社交网络(Location-Based S
绝缘子长期暴露在野外,在运行时很容易发生故障,因此需定期巡检。但输电线所经区域复杂,山区、平原等地形不一,利用传统的人工巡检方式,不仅工作量大而且条件艰苦。“十一五”期间,直升机广泛应用于输电线巡检中,同时怎样利用计算机视觉技术结合巡检数据,识别输电线路中的缺陷成为研究的重点。本文主要研究了航拍输电线路图像中绝缘子的分割和识别定位,为后期绝缘子故障识别提供了条件,同时对于实现直升机巡检输电线路的数
图像分割技术是图像工程中的关键步骤,从兴起的那刻就倍受科研界的关注。图像分割技术应用在图像工程学中的各个层次,其广泛的应用领域是其成为热点的重要原因。所谓的图像分
B超图像中肝硬化的识别在临床上对肝病的诊断具有重要意义,但是临床采集的图像中有噪声、尺度不一、病变边缘模糊、回声不均匀等因素。传统的图像识别技术在对肝硬化进行识别