基于Spark的ISOMAP算法并行化

来源 :中国科学技术大学学报 | 被引量 : 0次 | 上传用户:rghaijun23
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了实现大数据环境下非线性高维数据的快速降维,提出了一种基于Spark的并行ISOMAP算法.在该算法中,为了快速构建邻域矩阵,设计并实现了基于精确欧式位置敏感哈希的近邻搜索并行算法;为了实现特征值的快速求解,设计并实现了基于幂法和降阶法交替执行的特征值求解并行算法.为了进一步提高算法的性能,基于Spark的特性,利用Spark的稀疏向量、广播机制和缓存机制对并行ISOMAP算法进行了优化,减少了计算过程中的内存消耗和数据传输.在Swissroll数据集和S-curve数据集上的实验结果表明,基于Spark的并行ISOMAP算法通过并行执行和计算过程的优化,极大地提高了算法的执行效率,能够适用于大规模数据集的降维处理.
其他文献
目的制备包封率高和缓释作用好的PGE修饰的曲马多缓释缓释多囊泡脂质体,并与逆相蒸发法制备的曲马多普通脂质体比较其体外释药性能。方法用复乳法制备曲马多缓释多囊泡脂质体
本文结合医疗设备质量控制工作实践,对除颤器质控内容及标准、质控意识以及如何普及等问题进行了探讨。
随着我国经济的发展,现代化建设的脚步也在飞速前进,道路桥梁工程也在不断的发展之中,这对国民经济的发展有着重要的促进作用。混凝土桥梁在我国的应用比较广泛,它的施工工艺
针对塑料与低分子物质的不同,从结晶的概念和特点,影响结晶的因素,结晶对塑料性能的影响以及成型中对结晶的利用与防止等方面论述了塑料结晶及相关问题,以期能对塑料的成型生
肝癌是常见的恶性肿瘤之一,目前临床主要采取手术为主、介入、局部放疗和化疗为辅的综合治疗方法,但多数肝癌患者治疗后易复发,且缺乏有效的治疗药物和手段,疗效欠佳。免疫治
事业单位是我国特有的社会组织,1992年,我国提出了对事业单位进行分类改革,分类推进事业单位改革,是推进政府转变职能、建设服务型政府的重要举措,是提高各类事业单位公益服
半刚性基层沥青路面层间黏结状态是整个路面结构中最为薄弱的环节,本文通过室内试验揭示层间抗剪强度随界面污染变化的规律,并结合工程实际,探讨研究了如何防治沥青路面层间
从流浪者形象分析了阿瑟·米勒《推销员之死》中的犹太性,首先表现在剧中人物身体上的流浪和精神上的流浪,一方面在外漂泊,一方面迷失自我;对《推》剧中的父子主题进行了阐释
随着电子商务的发展,传统的单机计算模型难以满足海量数据的实时推荐需求,基于协同过滤的推荐算法的缺陷也越来越明显。为此,提出一种利用Spark计算模型实现分布式推荐的方法
工程造价概预算是工程造价管理中的重要环节之一,提高工程概预算审核工作质量对控制工程造价以及提高企业投资效益方面均具有十分重要的意义,在工程建设项目中必须给予重视。