MapReduce编程模型相关论文
提出了一种基于Hadoop架构和MapReduce编程模型实现的面向大数据的FP-Growth频繁项集挖掘的改进算法。首先将事务数据库按每个频繁......
随着互联网的兴起与日益激增的数据处理需求,云计算以其低廉的成本,强大的运算存储能力与高可靠性等众多优良特性逐渐受到各大IT企业......
信息化技术的不断深入应用,特别是网络技术的迅速发展,导致了数据的规模急剧增长。因此,如何保证海量数据的有效存储和管理,提高针对海......
并行计算是提高计算机系统计算速度和处理能力的一种有效手段。MPI是目前开发并行应用程序的主要编程模型——消息传递编程模型的......
复杂系统是现实世界的重要组成部分,复杂网络是对复杂系统的抽象。研究并发掘复杂网络的性质可以帮助人们更好的理解复杂系统。随着......
社团划分在生物、医疗等方面有着举足轻重的作用,但是随着数据规模的扩大,经典的串行算法已经不能满足人们的需要,为了能够适应大规模......
随着信息技术的飞速发展,设备日趋集成化与复杂化。对于如何能及时发现和预测故障,保证设备在工作期间高效、可靠的运行,以及如何从历......
随着信息技术和互联网的发展,基于流式数据的应用越来越多,传统的计算架构已经无法满足这类应用的需求。本文针对于基于数据采集和在......
随着数据爆炸性地增长,如何高效的分析和存储海量数据引起了人们的广泛关注,传统的网格计算、并行计算和分布式计算已经不能满足现在......
随着互联网技术的飞速发展以及云存储技术的不断完善,大规模数据的处理机制也发生了巨大的变化。面对在互联网应用中每天产生的大规......
近年来,数据密集型计算越来越得到相关学者的关注。数据密集型计算环境下的数据具有海量、高速变化、分布、异构、半结构化或非结......
数据的指数级增长向世界互联网巨头Google、Yahoo、Amazon和Microsoft等这些处于市场领导地位的公司提出了挑战,它们需要分析TB级和......
以虚拟化技术为基础的云计算正成为研究人员关注的焦点,基于云计算的商业模型和学术研究不断涌现。在过去的几十年里,由多核和多处理......
实体解析用于判断两个数据记录是否描述的是同一实体对象,记录聚合则把所有属于同一实体对象的数据记录进行聚集,建立关联,方便交......
约束频繁模式是利用用户给定的约束条件,生成的一种频繁模式,具有针对性强、挖掘效率高等特点.随着数据量的增大,约束频繁模式生成......
本论文在研究MapReduce编程模型的基础上,对Maper和Reducer函数的编程流程进行了深入的研究并在Hadoop框架的基础上,进行Kmeans聚类......
采用一种属性约简算法,将待分类的数据样本进行两次约简处理--初次决策表属性约简和基于核属性值的二次约简。通过属性约简方法来......
实体解析是指发现并聚合描述现实世界中同一对象的记录。纯粹的机器算法虽然可以获得较高的效率,但是准确率难以保证。提出了一种机......
云计算环境下对MapReduce编程模型和节点失效问题进行深入研究和实践。提出了使用基于失效规律的节点资源动态提供策略的方式,来解......
相似自连接是一个在很多应用领域中很重要的问题.对于海量数据集,MapReduce可以提供一个有效的分布式计算框架,相似自连接操作也同样......
多元连接是数据分析最常用的操作之一,MapReduce是广泛用于大规模数据分析处理的编程模型,它给多元连接优化带来新的挑战:传统的优......
高校是进行教学与科研的场所,随着云计算技术的发展,如何管理和利用产生的海量数据已成为当前研究的热点。设计了一个基于Hadoop云......
为解决传统关联规则挖掘算法在大数据环境下运行效率较低的问题,基于频繁模式增长(FP-growth)算法,提出一种面向大数据的并行关联规......
时空复杂度较高以及物理机器内存不足,会导致传统聚类算法不能有效地分析处理大规模数据网络。针对该问题,在MapReduce分布式模型的......
随着大数据时代的到来,传统的聚类算法很难高效地处理海量数据,而云计算平台凭借负载均衡、网络存储、虚拟化等技术,有效地突破了......
为了提高BP神经网络算法的分类准确率和运行时间效率,利用PSO算法和并行化设计的思想,提出了Hadoop平台下基于MapReduce的PSO优化B......
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们......
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们......
传统的约束频繁项集挖掘方法无法实现对较大数据量的快速处理,针对该问题,结合分布式框架Hadoop的分布式计算优势,提出一种基于Map......
为了提高BP神经网络算法并行化速率,利用神经网络并行化思想,提出了一种基于Hadoop平台的改进MapReduce编程模型及并行化的实现。......
为了解决海量XML数据查询的问题,提出了MapReduce编程模型下多谓词选择的查询处理方法.该方法并行查询海量XML数据,产生的并行查询......
为了解决现阶段海量数据的传输效率低下的问题,设计了基于Hadoop的分布式文件系统。系统是基于Hadoop的架构进行研究的,用MapReduc......
大数据在各个领域的快速发展,推动着企业不断地发展新业务和创造新的发展模式,企业大数据的应用和挖掘,成为企业提高竞争力的关键......
采用分布式编程MapReduce模型研究了文本统一格式预处理、训练、测试以及分类等基于朴素贝叶斯文本分类算法主要计算过程的MapRedu......
MapReduce编程模型的简单性和高性价比使得其适用于海量数据的并行处理。然而,MapReduce欠缺对多数据源、组件复用以及数据可视化......
随着大数据时代的到来,K最近邻(KNN)算法较高的计算复杂度的弊端日益凸显。在深入研究了KNN算法的基础上,结合Map Reduce编程模型,......
模糊C均值是一种重要的软聚类算法,针对模糊C均值的随着数据量的增加,时间复杂度过高的缺点,提出了一种基于MapReduce的并行模糊C均值......
现有的大数据处理技术以面向数据并行编程模型为核心,计算任务的并行化必然会面临计算任务调度策略和资源配置优化问题。简要分析......
为提高Mahout中协同过滤算法处理大数据的能力,对云计算平台进行研究,提出一种基于MapReduce模型计算相似度的方法。通过设计4个Ma......
近几年来,“云计算”成为信息技术领域里新出现的最具革命性的技术,其最大特点是整合信息系统资源,保持低成本状态下却可以提供高效计......
学位
大数据处理平台中任务密度和数据厚度不断增加,平台资源规模也随之不断扩展。面对错综复杂的大数据计算任务串并行执行过程和并发调......
在微博搜索领域,单纯依赖于粉丝数量的搜索排名使刷粉行为有了可乘之机,通过将用户看作网页,将用户间的"关注"关系看作网页间的链......
高性能计算机主要应用于传统的科学计算领域,而在云计算时代,数据密集型应用成为一大类新型应用,已经变得越来越重要.主要探索如何......
在过去的十年里,云计算技术在世界范围内迅速的发展,云计算技术强大的计算能力为海量数据挖掘提供了新的生机,将海量数据挖掘算法......
随着计算机技术迅猛发展和互联网运用高速的扩展,云计算作为现在炙手可热的分布式计算模式,改变了传统互联网的服务模式。这种由大量......
我们生活在数据爆炸的时代,每时每刻都有着成千上万的数据产生,信息总量以几何级数的方式增长。但数据量的快速增长也同时给我们带......
许多学习和数据挖掘算法性能的好坏在很大程度上取决于能否获得一个好的距离度量。本文研究的内容是关于马氏距离度量的学习。关于......