不确定性数据聚类算法及其并行化研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:n131421d
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在Internet中的数据传输,传感器网络的数据采集,金融商业领域的交易记录等过程中时时刻刻都产生着海量的数据,不确定性数据占据了很大比例。所以,近年来,不确定性数据的聚类研究受到了广泛的关注。因为在现实环境中,不确定性数据总是不可避免的存在。这些数据的不确定性对最终的聚类结果会产生较大的影响,因而不能忽视。所以如何有效地处理不确定性数据成了一个研究热点。在不确定性数据聚类算法的研究中,普遍需要假设不确定性数据服从某种分布,进而获得表示不确定性数据的概率密度函数或概率分布函数。然而这种假设很难保证与不确定性数据的实际分布一致,使得聚类质量和计算效率较低。现有的基于密度的不确定性聚类算法对初始参数敏感,在对密度不均匀的不确定性数据聚类时,无法发现任意密度的类簇。现有算法大多只能单机串行运行,无法满足大数据处理的需要。针对这些问题本文主要的工作如下:本文对传统基于分层密度的聚类算法OPTICS(Ordering Points To Identify the Clustering Structure,OPTICS)进行改进,进而提出基于区间数的不确定性数据聚类算法UD-OPTICS(Uncertain Data OPTICS,UD-OPTICS)。改进算法利用区间数理论,结合不确定性数据的统计信息来更加全面准确地表示不确定性数据;提出了低复杂度的区间核心距离和区间可达距离的概念,对区间数之间的距离计算方式进行改进,进而用于计算上述距离;将上述概念及计算方式用于不确定性数据间的相似度度量、对象排序识别聚类结构等。实验表明,相比于对比算法,改进算法的聚类质量平均提升15.33%,在密度不均匀的数据集上的聚类质量平均提升23.91%。针对改进的UD-OPTICS算法单机串行运行不能满足大数据聚类的需求,将UD-OPTICS算法与Hadoop结合,提出了一种高效的并行不确定性数据聚类算法HUD-OPTICS。HUD-OPTICS算法运用MapReduce模型实现并行计算,并使用改进的PRBP数据分区划分方法对数据集进行最小边界点数和均衡的分区划分,为集群各节点的负载均衡与算法最终的高效运行提供保障。搭建Hadoop平台进行实验,结果表明HUD-OPTICS算法能够满足集群环境聚类不确定大数据中的需要。
其他文献
开展文化活动一直是孔子学院传播汉语以及中华文化的主要方式与手段,本文通过收集资料对意大利12所孔子学院在2018、2019两年间所举办的文化活动进行了整理归纳和分析,以意大利12所孔子学院之一的米兰国立大学孔子学院为例,运用个案分析法、访谈法以及定性分析法并基于知识扩散理论对其开展的具体活动案例进一步加以分析,总结出影响文化活动开展效果及文化知识扩散效果的主要因素,从而对孔子学院今后开展文化活动提
研究了横向加热石墨炉的恒温性能和分析性能,并与Massmann型炉进行了比较,结果表明,横向加热石墨炉具有较好的恒温性能,其原子化时间短,原子化温度低,原子吸收信号的占有时间短,特征质量m0值低
党的十八以来,结合“一带一路”和“人类命运共同体”的建设,不断深化中外合作交流,中华民族传统文化已经成为一张中国走向世界的耀眼名片。中华人民共和国运动会(在本研究中简称“全运会”)作为国内体育赛事水平最高、赛事规模最大的综合性运动会,发展至今其意义远远超越体育赛事本身,而成为举世瞩目的综合文化盛典。全运会赛事形象景观作为赛事的形象载体,地域文化要素被越来越多的融入其中。本研究通过文献资料法、实地调
实践教育秉承伟大的人民教育家陶行知的“行是知之始,知是行之成”,“教学做合一”,学习与实践相结合的教育理念。习近平总书记在十九大报告中对全体党员提出了“登高望远、
对聚苯胺在有机溶剂中掺杂质子酸的反应进行了in-situ UV-Vis光谱跟踪, 用因子分析法对掺杂反应机理进行了研究. 结果表明, 聚苯胺在有机溶剂中掺杂质子酸的过程可能存在着两
运用SES、XPS,XRD和TEM等手段研究了LaCoO3模型催化剂SO2中毒过程表面化学状态,晶相结构及表面形貌的变化状况、初步推断了LaCoO3钙钛矿型复合金属氧化物催化剂的SO2中毒机理,在SO2强化中毒过程中,SO2与催化剂的活性组
礼品型西瓜因其个小、皮薄、肉质细嫩、风味独特而适合现代小家庭消费,颇受市民青睐。由于礼品西瓜经济效益较高,也受到广大农民的欢迎,栽培面积逐年扩大。针对我区耕地面积少、
研究了二(2,4,4-三甲基戊基)单硫代膦酸和伯胺N923的正己烷溶液从硫酸介质中对稀土元素(Ⅲ)的协同萃取。并以La(Ⅲ)为例,用斜率法,恒摩尔法和饱和法确定了协萃配合物的组成为(RNH3)3L2La(SO4)2,计算了协萃配合物的生
兰溪市地处浙江中西部,光温资源充足,是我省重点产粮区,大田生产以“麦f油菜)一早稻一晚稻”三熟制为主。近年来.在种植业结构调整及发展效益农业过程中.我市积极引进新品种,探索高