Hadoop集群相关论文
近年来,微服务是较流行的系统研发方案,与单机服务架构相比,它解决了行业上的许多痛点,比如大量数据同时对服务的访问,数据量暴增导致服......
传统的温室环境参数获取主要依靠各类传感器进行数据采集,采集精度较高,但由于缺乏数据分析,环境参数获取后只能依靠经验对农用设备进......
文中设计一个用于存储的平台,通过虚拟化技术实现了服务器,规划了平台的存储集群规模及服务;对存储集群架构、请求处理系统、数据库进......
大数据分析系统的用户希望任务的执行时间尽可能短.然而,在任务执行期间,网络与计算时刻都可能成为阻碍任务执行的资源瓶颈.通过对......
传统的异常数据监测算法依靠单台计算机对异常数据进行识别,识别速度慢,且无法满足对数据处理的精确性要求。针对上述问题,文中构......
随着大数据Hadoop技术在各类行业应用的不断扩大和深入,大量的数据信息在未经审查和安全保护的情况下暴露在各类应用访问中,容易造......
Hadoop是当前最为流行的云计算平台实现方式之一,作为一个开源的、分布式文件系统,用于海量数据的存储与计算分析.文章在Vmware虚......
利用云计算等先进技术对网络数据库进行优化总结。基于云计算等技术重新设计了一种面向大数据的网络数据库,实现了平台操作设计、......
Hadoop集群是学习与研究大数据不可或缺的操作平台。部署Hadoop集群需要多台计算机,在具体实践上有一定难度,也给用户带来不小的经......
针对Hadoop集群节点增加导致任务运行效率降低,以及异常节点会拖慢整体作业进度的问题,提出了一种Hadoop集群异常节点实时检测与诊......
随着大规模数据运算的不断发展,运算集群的规模越来越大,对系统可靠性的要求也越来越高。然而,对于如此大规模的集群,不可避免的存在着......
随着云计算在企业中的广泛使用,拥有HDFS分布式文件系统和分布式计算模型MapReduce的Hadoop成为了众多IT企业的首选。在大型企业中......
随着互联网的飞速发展,规模庞大、结构复杂、具有多个属性的网络数据日益堆积。而这些数据的共同特点是“高维性”,如各种电子商务交......
信息化年代,网络资源日益庞大,用户请求信息数据量伴随着互联网的发展而不断增加。由于集群存储系统有诸多优势,所以集群存储系统......
当今,Hadoop集群在大数据时代下已经广泛使用,互联网公司对数据的处理和分析广泛使用Hadoop集群。一旦Hadoop集群失效,会导致数据......
随着计算机技术、网络技术和信息技术的发展,信息量呈爆炸式增长,我们已经生活在数据时代。在当今高度信息化的社会中,互联网已经成为......
计算机集群的广泛应用给人们带来方便的同时,也带来了能耗问题,如何有效地利用能源,降低不必要的能耗已成为一个迫切需要解决的关键问......
随着信息时代的快速发展,其数据具有海量、异构、多样、动态变化等特性。面对这些海量数据,常常陷入“数据丰富,信息贫乏”的尴尬境地......
为了解决校园学生行为数据量大、结构复杂和来源广泛造成的数据管理难度大的问题,提出了一种在大数据平台上构建知识库的模型,分析......
近年来,随着信息化时代的到来,数据呈现爆炸式的增长趋势,普通的大型计算机已经无法承担计算海量数据的任务,各大互联网公司纷纷采......
科学技术的发展带来了人们生活办公方式的转变,当今时代所倡导的人工智能,大数据等技术的发展都以数据作为基石。数据的价值在生活......
云计算技术的发展使得数据中心的规模和数量不断扩大,随之而来的问题是能耗成本越来越高。Hadoop是现阶段应用广泛的数据处理平台,......
随着技术的发展,数据的规模也随之增长。通过各种方法收集的原始数据(即非结构化数据)的指数增长迫使公司必须改变其业务战略和运......
针对现有大数据实验平台成本较高、总体部署效率较低,扩展性较差等问题,提出利用容器虚拟化技术,采用Docker、Kubernetes(K8s)、Ra......
本文设计了一种基于Hadoop高可用集群的大数据新闻可视化平台。搭建Hadoop高可用集群并部署相关服务之后采用分布式爬虫采集数据,......
数据的指数级增长向世界互联网巨头Google、Yahoo、Amazon和Microsoft等这些处于市场领导地位的公司提出了挑战,它们需要分析TB级和......
碳循环模型是模拟陆地生态系统碳循环关键过程,预测和评价不同时空尺度陆地生态系统生产力收支格局和变率的重要手段。随着观测手段......
为了使Hadoop集群系统能够应对多变的任务及系统本身节点差异对集群性能带来的影响,采用TaskConfigure服务器构建Hadoop集群参数信......
随着互联网上信息量的爆炸式增长,海量网页数据的存储出现了难题。针对海量网页数据进行存储的问题,传统的集中式存储和管理方案已......
随着信息和数据爆炸式增长,Hadoop等海量数据处理平台日益重要,作业调度算法是Hadoop集群的核心,本文对Hadoop集群默认的三种作业调度......
摘要:Hadoop技术已经在互联网领域得到广泛的应用,同时也得到了学术界的普遍关注。该文介绍了Hadoop作为基础数据处理平台仍然存在的......
异构Hadoop环境中,每个节点的处理能力各不相同,且集群中的节点会不断增加和删除,随着作业量的增大,负载倾斜会越来越明显。显然,负载均......
Julia编程语言是美国麻省理工学院MIT正式发布的面向科学计算的高性能编程语言。Julia集合C的速度,Matlab数学处理特征,Python的通......
在面对海量数据分类问题时,时间和空间复杂性已成为传统算法的瓶颈。在对传统的BP-AdaBoost算法进行分析的基础上,结合云计算平台,......
针对因特网环境下并行数据库实现多个大数据表关联存在的计算瓶颈,基于Hadoop集群设计了一个并行关联多个大数据表的简便算法MR_Joi......
分析了KNN分类算法的流程,然后在K值的动态获取和分类加权两个方面对分类算法进行改进;利用MapReduce编程思想完成KNN分类算法在Ha......
目前大数据人才培养在国内外高校开始普及,但大数据实验室的几种常用建设方法都存在着诸多问题。针对大数据实验环境的特点,提出一......
提出了一种基于蚁群与遗传算法融合的自适应作业调度机制,将遗传算法全局收敛、快速搜索的优点与蚁群算法正反馈、高求精率的优势......
针对目前大数据实践教学的主要问题,在分析了Open Stack平台与其组件Sahara的特点后,采用Open Stack4J API在该平台上设计并开发了......
针对震动波波速成像过程中遇到的海量数据处理问题,提出了分布式实现到时差相关运算,提出了在MapReduce框架下到时差计算的程序设计......
为了解决Algorithm_Add算法在挖掘大数据中的频繁模式时存在的内存占有量大和运行速度慢等问题,该文在深入研究Algorithm_Add算法......
随着分布式计算技术的发展,Hadoop成为大规模数据处理领域的典型代表,由于安全机制相对薄弱,缺少用户行为活动的监控,容易受到隐藏的安......
针对Hadoop应用环境复杂、网络带宽等因素多变而影响调度算法性能的问题,提出适用于多任务多目标的Hadoop调度算法(MOSMT)。在分析......
针对Nutch网页排序算法和中文分词的不足以及单机运行的效率问题,在Nutch综合网页排序中添加用户点击率、网页发布时间以及主题内......
逆变器是分布式发电系统中的重要环节,其运行状况直接影响整个系统的工作可靠性。针对分布式发电系统中逆变器运行时产生的庞大监......
大规模语料库的训练是使用三元N-gram算法进行中文文本自动查错中一个重要的基础工作。面对新媒体平台每日高达百万篇需处理的语料......
目前,我国各选矿厂均面临关键数据存储和利用问题,采取以往简单的磁盘和服务存储的方法,不仅不能有效保障数据的存储安全,而且无法......