基于混合型数据的K-Prototypes算法研究及Spark平台实现

来源 :南昌大学 | 被引量 : 0次 | 上传用户:c472559561
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在实际生活中存在大量的由数值型和分类型所组成的混合型数据,K-Means算法作为聚类分析算法之一,却只适用对数值型数据挖掘分析,当面对混合型数据时它就显得有些无能为力。经过学者们对混合型数据聚类算法的深入研究,提出了一种可以处理混合型数据的K-Prototypes算法。它具备像K-Means算法一样简单、高效、强伸缩的优点,但也容易受到初始中心点随机选择、聚类数目人为指定、混合属性相异性度量不准确等方面的问题。针对K-Prototypes算法存在的不足,本文对K-Prototypes算法做了相关改进,并将算法集成实现在Spark框架中提升算法处理大规模数据集时的并行计算能力。本文的创新工作如下:第一,针对K-Prototypes算法混合属性相异性度量中计算距离部分仅使用欧式距离划分不够准确的问题,在分类属性模糊中心与信息熵改进混合属性相异性度量的研究基础上利用形态相似距离MSD代替使用欧式距离作为混合属性相异性度量距离计算的部分。通过举例证明MSD比欧式距离有更好的数据划分性,同时也得出使用MSD改进混合属性相异性度量公式的有效性。第二,针对K-Prototypes算法存在初始中心点位置随机性易陷入局部最优,聚类数目k需人为指定的问题,将改进的混合属性相异性度量公式运用到相异性矩阵思想中用以选择初始聚类中心;再利用数值属性和分类属性的权值对内部有效性评价指标CUM进行优化,并计算不同k值的CUM指标选择合适个数的聚类中心;最后在UCI数据集的仿真实验表明,改进的K-Prototypes算法在三种外部有效性评价指标和改进的内部有效性评价CUM指标上都优于对比算法。第三,针对改进的K-Prototypes算法在大规模数据集中计算混合属性相异性时计算资源能耗高,运行时间过长的问题,引入Apache Spark并行计算框架,提出了一种Information-entropy and Spark Parallelized K-Prototypes(ISPKPrototypes)算法。通过在XX省创业担保用户数据集上的有效性评价指标、工作节点数和加速比方面的对比分析,证明本文提出的ISPK-Prototypes算法在并行计算框架中的运行效果优于另外两种算法,并且能保持良好的并行计算性能。
其他文献
为确保铁路列车通过站线及停靠站台时不发生剐蹭,同时保障旅客上下车的安全,需定期检测并严格控制铁路站台的限界尺寸。目前使用最多的方法为量尺类接触式检测,检测效率低,受人为因素影响较大。本文采用双目视觉技术,研究了一种非接触式站台限界测量系统。根据站台限界的测量需求,本文对所涉及的双目视觉相机进行了选型,采用张正友标定法对双目视觉相机的镜头畸变进行了矫正,并获取了双目视觉相机的内参矩阵与外参矩阵。同时
随着经济和社会的高速发展,城市发展的脚步亦不断加快,“垃圾围城”也成为了城市环卫工作的紧迫问题,传统的管理体系和监察方式已很难满足日益增长的环卫需求,因此国内各大城市都对智慧环卫进行了积极的探索和实践,但智慧环卫云平台的研究仍然存在数据孤岛、感知层硬件设施效率不高等实际问题。本文针对目前智慧环卫云平台发展中存在的垃圾分类效率低、政府和企业数据共享不充分等问题进行研究,使城市环卫工作进一步精细化、高
食用农产品是人们日常生活饮食中的必备食品,而食用农产品质量安全问题则是当今社会最为关心的民生问题。近年来农产品质量安全问题频发,使得消费者的权益受到损害,同时也有损农产品生产者的信誉和形象,而传统的中心化的溯源系统的数据易被篡改,无法提供有保障的真实溯源信息,因此使用区块链技术来构建数据安全不易篡改的农产品溯源平台具有重大意义。本文主要研究内容如下:(1)阐述了国内外农产品溯源体制的发展现状以及区
在光照条件不佳的环境下,由于曝光不足,光学成像设备所收集的图像整体视觉暗淡、细节模糊、可见性差,必须经过增强处理后才能用于后续的各类图像处理任务。现有的低照度图像增强(low-light image enhancement,LLIE)算法大多数是基于Retinex的光学物理模型,所得到的图像整体上视觉效果较好,但估计照射分量或反射分量时受约束的限制很容易导致图像出现局部细节模糊等问题。近年来,基于
随着多媒体处理和互联网技术的飞速发展,以图像为主的信息传播越来越多,因此,图像传输和储存的安全性受到了人们的关注。为了保护图像信息不被未经授权的复制和传播,并满足实时安全图像信息传输的需求,图像加密应运而生。本文设计了两种基于混沌系统和DNA计算的图像加密方案,并对其性能进行了测试。具体研究工作如下:(1)提出了一种基于新型时空混沌和DNA计算的彩色图像加密方案。该方案利用蔡氏电路产生的伪随机序列
近年来,各省社会经济快速发展,交通运输需求增长迅猛,使公路管理部门在公路运输保通保畅工作上面临着巨大挑战,对公路主管部门在路网运行管理与应对突发事件的能力提出了更高的要求。为此,本文以公路交通管理为目的,结合目前国内外在交通应急管理方面的先进经验,综合应用分布式技术、大数据处理技术、视频监控技术、深度学习与Java EE技术设计开发了公路管理和预警平台,在满足实际需求的前提下实现便捷化交通管理。平
由于软骨愈合能力差,骨软骨(OC)缺损自修复能力有限,现在临床上并没有显著有效的药物促进骨软骨缺损愈合,因此OC修复需要手术,组织工程支架被认为是骨软骨再生手术中有前途的材料。由于OC缺损通常涉及对软骨和下方软骨下骨的损害,因此组织支架在细胞组成、生长因子、材料组成、结构、力学性能和稳定性方面必须具有离散梯度或连续梯度。为了满足OC修复支架的要求,本课题采用冷冻3D打印气动挤出技术成功制备了CS生
随着中国人民物质生活愈发丰富,精神追求也愈发提高,健身需求愈发强烈,全国健身工作室雨后春笋般的建立起来,但面临着健身教练不专业,门面租赁贵,成本高,抗风险能力弱等困境,传统健身行业渐渐衰弱。在线健身行业逐渐崛起,但处于信息大爆炸的时代,如何从海量的健身知识里面选取最适合的健身信息也是亟待解决的一大难题。推荐系统能够解决信息过载,将信息过滤过程从“用户主动寻找”转变为“系统主动推送”,解决用户当前困
古诗词作为中华文化中的瑰宝,不仅在当代人文化建设中反映他们的精神生活,而且对现代人的情操陶冶和文化修养有重要帮助,因此,古诗词的研究价值是不容小觑的,也具有长远的研究意义。随着信息时代的快速发展,越来越多的学者开始研究自然语言处理领域的相关工作,数据的处理也用现代计算机智能化技术来取代传统的手工。文本分类技术作为自然语言处理的经典问题之一,能够有效对海量文本数据进行自动归类,虽然已在现实生活中有广
磁共振成像可以无损地描绘患者体内的结构和功能特征,为当今的医学诊断和研究提供了支持。但是,磁共振成像数据采集速度缓慢导致了非理想的空间分辨率,引起患者不适并阻碍了对时间要求严格的诊断的应用。而快速磁共振成像重建技术可以很好地克服上述缺陷,因此,吸引了众多研究者的关注。深度学习特别是生成模型的快速发展为快速磁共振成像重建技术提供了新的方案,本论文研究基于生成模型的磁共振快速成像重建无监督学习方法。在