基于大数据平台的数据挖掘算法研究与实现

来源 :浙江工业大学 | 被引量 : 0次 | 上传用户：ihwren

【摘要】

：

随着信息时代的高速发展，互联网平台上每天都会产生海量数据，如何从这些海量的数据中提取出有价值的信息具有重大的意义。Hadoop技术提出的HDFS和MapReduce技术解决了海量数据

【作者】

：

张彤

【机构】

：

浙江工业大学

【出处】

：

浙江工业大学

【发表日期】

：

2016年期

【关键词】

：

大数据平台数据挖掘多任务调度

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着信息时代的高速发展，互联网平台上每天都会产生海量数据，如何从这些海量的数据中提取出有价值的信息具有重大的意义。Hadoop技术提出的HDFS和MapReduce技术解决了海量数据的分布式存储和计算问题；Spark技术提出RDD数据模型和基于内存的计算模式擅长于快速数据处理，特别是在需要反复迭代的数据挖掘工作中更为出色。本论文正是基于大数据和云计算的应用背景，对 Hadoop计算平台调度算法和 Spark数据挖掘算法进行研究。　　论文首先介绍了Spark技术的背景知识，简要讨论了Spark技术的系统架构、RDD的编程思想、k-means聚类算法和相关推荐算法等。同时，论文还分析介绍了Hadoop计算平台的作业调度算法。　　针对现有hadoop平台作业调度算法无法很好满足多任务调度的问题，论文提出了基于权值的hadoop计算能力调度算法，该算法通过动态计算各个任务的权值，同时均衡考量不同任务的优先级、计算资源需求、数据资源位置等信息调整任务调度顺序，实现多作业快速执行以及计算节点负载均衡。实验结果表明本算法在多任务调度的情况下可以更加快速处理海量数据。　　针对现有数据挖掘算法的优化，论文还提出了基于Spark平台的k-means聚类算法、推荐算法优化以及在该平台上并行化实现。对于k-means聚类算法，提出了非均匀选择初始值的策略，通过设计数据点采样概率函数，使得区分度大的数据点被选中作为初始聚类中心；对于协同过滤推荐算法，提出了采用基于用户评分偏好聚类对协同过滤推荐进行系统优化。论文在真实计算环境下对两种算法的进行并行化实现，实验结果表明两种优化算法能够在Spark平台上并行化快速处理海量数据，并保证了处理结果具有更高的聚类准确性以及推荐精度。

其他文献

基于嵌入式平台的航标位置实时监测终端研究

航道运输在整个运输体系中一直起着举足轻重的作用,随着经济的发展,运输量不断增大,航道安全成了必须确保的首要问题,特别是内河航道水文地理情况复杂,随气候季节变化性大,对

学位

航标位置GPSGPRS无线传输模块嵌入式系统

信任模型在无线传感器网络入侵检测中的应用

无线传感器网络作为一种新兴起的技术,目前还处于起步阶段,各种相关技术的研究还在探讨和论证阶段,是一大研究重点。而网络安全作为网络能够正常地运行和工作的前提条件,是当

学位

信任模型恶意节点辨别甄别机制信任计算信任值

LTE-Advanced系统中继技术的研究

中继技术是LTE-Advanced中引入的关键技术之一,中继辅助通信是一项可以满足终端用户Qos要求的重要策略。中继辅助通信具有两个主要作用:首先是扩大用户覆盖,即更多的移动用户

学位

LTE-Advanced协作通信中继选择机会中继

基于BLACKFIN平台的多媒体网络节点的研究和设计

随着高速网络的普及和信息技术的发展,在人们生活水平提高的基础上,人们对于智能网络的需求不再满足于智能大厦这类大型的公共场所,更加贴近家居生活的智能社区以及智能家庭

学位

无线传感器网络蓝牙uClinuxAODV

基于pHEMT的低功耗单片低噪声放大器研制

单片低噪声放大器作为微波单片集成电路的重要部分，广泛应用于航天、雷达、微波通信、电子对抗、卫星和GPS接收机等接收系统内。现阶段射频接收系统对宽带低噪声放大器的各方

学位

电流复用改进型网络低噪声放大器芯片功耗

基于自适应ICA的相干光OFDM系统的信道均衡研究

相干光正交频分复用(CO-OFDM)系统以其与数字信号处理的良好结合，对光纤传输中的色散损伤具有良好的容忍度和高频谱利用率等优点,已成为长距离高速光通信系统领域备受关注的技

学位

独立成分分析法相干光正交频分复用信道均衡自适应偏振效应光纤传输

WDM系统中相干粒了了数震荡效应诱导的慢光现象

目前的光通信系统是光电并存的，而非全光通信系统。如果光信号不转换到电信号，将很难进行存储、交换、路由等处理。慢光(Slow light)效应由于具有使光速变慢而且可控的性质，可以

学位

WDM系统慢光效应相干粒子数震荡非共振区域时延带宽积

数字图像复制粘贴及接接的盲取证方法研究

数字图像作为信息载体，已经在日常生活中的各个领域得到广泛使用。但是随着现代科学技术的发展，对数字图像的篡改工具也比比皆是，使得信息传递面临极大的真实性问题。数字图像取

学位

数字图像复制-粘贴盲取证拼接检测尺度不变特征变换乘积量化方向经验模式分解

基于VCCV的MPLS伪线故障检测与恢复技术的研究与实现

边缘到边缘伪线仿真(PWE3)是为实现传统通信网络与现有分组交换网络(PSN)的融合而提出的一种解决方案,以此达到资源的共用和网络的拓展。PWE3志在以提供最少的必备功能来进行

学位

虚电路连通性验证边缘到边缘伪线仿真多协议标签交换故障检测冗余保护

基于Android的VoIP系统设计与研究

随着IP技术和无线网络技术的快速发展，VoIP系统在得到迅猛发展的同时获得了极大普及。它的出现不仅降低了人们之间通讯的资费，丰富了通讯的形式，而且还提高了人们的生活质量。同

学位

VoIP系统音视频编解码回声消除实时传输协议Android平台移动设备

基于大数据平台的数据挖掘算法研究与实现

与本文相关的学术论文