非均匀数据的聚类算法研究及应用

来源 :福建师范大学 | 被引量 : 0次 | 上传用户:raul2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析作为数据挖掘的一项重要技术,其核心思想是将一个给定数据集划分成多个子集,每个子集为一个簇,使得簇内对象彼此相似,与其他簇中对象不相似。传统的聚类算法可分为基于划分聚类、层次聚类、基于密度和网格聚类、基于模型的聚类、其他聚类算法等。目前,聚类分析已广泛应用在Web搜索、文本处理、医疗数据分析等众多场景中。非均匀数据(non-uniform data)是现实生活中一类常见的数据集,例如医疗诊断数据、森林灾害监测数据等。这类数据典型特点是在一个数据集中不同簇之间的样本数量和样本密度有较大差异,相较于不平衡数据(Imbalanced data),非均匀数据能更准确地表述此类数据。对这类数据进行聚类分析是当前数据挖掘领域的一个难点的问题。针对这一难点问题研究者做了相关研究,但目前仍存在一定的问题,其中较为突出的有:(1)K-means型算法对非均匀数据进行聚类分析时存在“均匀效应”问题;(2)当前的非均匀数据聚类算法大多定义在全空间中,并没有考虑子空间情形;(3)大规模非均匀数据的处理效率问题。针对以上问题,本文分别做了相关研究。以下对本文研究工作和创新之处进行简要介绍:(1)提出一种基于变异系数的非均匀聚类算法,以解决“均匀效应”问题。本文以变异系数度量非均匀数据的分布散度,同时定义了一种非均匀数据的相异度公式;基于新的相异度度量方法定义了聚类目标优化函数,并根据局部优化方法给出聚类算法过程;最后,在医疗诊断数据集上进行应用分析,实验结果表明,该算法在非均匀数据上提高了聚类精度。(2)提出了一种非均匀数据的软子空间聚类算法。首先介绍了子空间聚类,然后提出一个描述非均匀数据簇的软子空间高斯混合分布模型,该模型允许数据集中同时包含密度和大小存在差异的簇;其次,推导了非均匀数据聚类的目标优化函数,并定义了优化该函数的EM型聚类算法。在医疗诊断和其他真实数据上进行应用分析,实验结果表明新算法有较高的聚类精度。(3)将非均匀数据聚类算法与Spark平台结合,利用并行计算对大规模非均匀数据进行聚类分析。本文以一种非均匀数据聚类算法为基础对算法进行了相关改进设计以适应分布式平台并行计算所需要的条件,然后在Spark平台中实现了算法并进行了实验测试。
其他文献
航运业是国民经济的重要支柱产业,与经济的发展密不可分。我国航运业经过几十年的发展,在世界航运业中的国际地位已经变得举足轻重。世界金融危机以后,世界经济贸易增长速度持续放缓,航运业也不可避免的遭受到了运力长期过剩,运价降低和市场进入漫长的调整期等影响。从2016年开始,市场集中度得到提升,行业复苏态势明显。远洋船员是航运业发展不可或缺的中坚力量,同时也是船员管理公司的核心资源。然而,随着我国经济的快
2011年国家教育部再次修订《义务教育生物学课程标准》,精选了50个重要概念作为学生学习的要点和框架基础,由此生物学教学逐渐向概念教学转变与落实。光合作用是生物学知识体
自琼斯开创性的研究以来,西方关于操作性应计利润影响盈余管理方面的研究已经比较完善。但系统性的从11种关联方交易行为与盈余管理的关联性分析的研究较零散。随着中国会计准则改革进程的稳步推进,企业获得了更多选择会计政策、会计估计的自主权,企业管理层盈余管理的空间逐渐增大。相应地,关联方交易变得更加复杂多变。近几年,中国理论界与实务界也对关联方交易与盈余管理做了些研究,但也存在着一些问题有待改善,未对11
论述高中生物学概念教学回归课堂,必须解决4个基本问题:课堂准备必须围绕重要概念设计教学;课堂展开必须针对重要概念的理解,教学设计要让学生经历知识的产生和证明过程,通过
移动应用安全已成为我国互联网治理的重要议题,层出不穷的移动应用安全问题直接损害了社会公众的切身利益,制约了移动应用市场的健康发展。对此,政府部门着力加强行政监管制
探讨了放电线圈跨接在电容器与串联电抗器两端的可行性,理论分析和数值计算证明放电线圈的这种跨接并不影响电容器回路的放电特性,且有利于放电线圈的安全运行和产品型号规格
本文以2007-2015年A股上市银行为样本,采用固定效应和动态面板模型检验内部控制对银行信贷风险的影响。结果表明,内部控制能够显著降低银行信贷风险;内部控制的风险防控作用
据报道,ETV6-NTRK3易位甲状腺乳头状癌(PTCs)通常与放疗相关且多发生在小儿。作者描述了12例无放疗史的成人ETV6-NTRK3易位PTCs的临床病理学特征,均为经二代测序技术证实的病
浙江省湖州市南浔区现有小微企业2100余家,主要集中在毛纺、机械等产业,大多数企业安全起点低、配套设施不全、安全管理人员的安全知识欠缺,是事故易发多发区域。面对安全监
白云鄂博西矿是一座大型现代化露天开采矿山,该地区属于典型的大陆性气候,高寒干旱,根据矿山实际生产资料显示,采场内80%的炮孔内均有水出现且水深变化明显。目前采场开采深度已超过150m,采场内分布不均的富水区和水线通道严重困扰着露天矿的正常生产及边坡安全。随着开采水平进一步的延伸,边坡内有水的存在会严重影响边坡安全,而边坡稳定是保证采场内人员、设备正常生产的重要保障。因此了解采场内富水区域以及水线通