MAPREDUCE框架相关论文
集合相似性连接从两个集合合集中找出相似度大于给定阈值的集合对,是大数据分析的重要操作,有着广泛的应用,如发现抄袭的文章、检......
随着互联网技术的迅速发展以及大数据时代的到来,使得大数据相较于传统数据,具有了4V特性——海量、变化速度快、多模态、价值总量......
传统的异常数据监测算法依靠单台计算机对异常数据进行识别,识别速度慢,且无法满足对数据处理的精确性要求。针对上述问题,文中构......
介绍了MapReduce编程框架产生的背景,研究了Hadoop MapReduce的架构和工作过程,给出了MapReduce的优缺点,并指出了下一步发展的方......
摘 要:针对大数据环境下关联规则数据挖掘效率不高的问题,采用Eclat算法使用垂直数据库将事务的合并转换成集合操作的方法。研究了一......
最近几年,随着数据信息量的激增,大数据概念兴起。大数据的处理分析受到了国内外各个研究领域的广泛关注。由于谷歌的成功案例,使......
随着互联网和物联网的蓬勃发展,大数据对传统的数据存储、处理和查询产生了挑战。应用于不同领域(例如多目标决策、数据可视化)的Skyl......
随着语义网研究的不断深入,对大规模RDF图进行语义推理的速度之慢日益凸显。在传统的语义推理机制遇到瓶颈时,应用MapReduce和HBase......
在实体识别、个性化推荐、社交网络分析和链接预测等多个领域,都会涉及到相似性度量这一问题,即需要衡量出不同对象之间的相似度。......
随着信息化时代的发展,各种各样的数据随之而来,数据结构多样化以及数据规模对相关技术提出了巨大挑战。对于处理大数据的许多应用......
大数据时代的来临使得云计算成为如今最为炙手可热的IT技术。目前,云计算技术是IT企业的基石,无论是电脑互联网,还是智能手机、GPS......
随着航天航空领域的快速发展,传统的数据存储与分析方法已经不能满足于目前的庞大数据量,而云计算技术的出现和发展,很好的解决了这一......
随着互联网的高速发展,云计算集群系统越来越大,处理数据的规模越来越大,这样就需要一个高效的分布式处理系统进行数据挖掘、计算等任......
分布式计算的发展为大数据的分析和处理提供了一个新的平台。Map Reduce是一种能够在分布式系统中实现大规模数据并行运算的分布式......
分类作为数据挖掘领域中最为活跃的分支之一,被广泛的应用于模式识别、图像识别、机器学习等领域。而且,分类在现实社会生活、生产......
随着大数据时代的到来,数据规模和种类急剧增大,如何在海量数据中找出对用户有用的信息至关重要。Skyline查询作为经典的查询算法,能......
频繁子图挖掘是图数据挖掘一个重要的研究方向,为的是找到图数据集合里频繁存在的子图集模式,从而找到图数据集合所包含的规律。随......
随着互联网的飞速发展,近年来电子商务得到了迅猛发展,交易数据激剧增加,即使采用目前最有效的Hadoop、Spark等数据处理技术也仍然......
随着Internet的快速发展,网络已经普及到社会的每一个角落。人们的日常行为和生活,越来越依赖于网络提供的信息。搜索引擎正是为大......
到目前为止IETF已公布的网络协议有5000多种,面对增长速度逐渐加快的网络协议数量,健壮性测试的难度日益加大;对于每个具体协议的测......
自1969年互联网诞生到2011年互联网被广泛应用到社会的各个领域,流经互联网的数据量至少膨胀了200亿倍,并且这些数据每天都会以更......
互联网技术的发展使信息以前所未有的速度增长和传播。随着网络数据爆炸式的增长,在网络中快速、准确地定位到自己想要查询的信息成......
近年来,随着计算机处理能力的不断提高,互联网技术取得了飞速发展,各种基于Web2.0技术的新兴网络应用的出现使得越来越多的数据被收集......
互联网的快速发展对大规模数据处理技术提出了新的挑战,目前业界广泛使用的数据处理系统多数基于Google提出的MapReduce并行处理框......
随着信息安全事件的频繁出现,用户对医疗信息的访问控制与隐私保护需求越来越迫切。但是,现有医疗信息的安全机制,特别是在分布式......
云计算是当前网络技术领域的热门话题之一,是产业界、学术界、政府等各界均十分关注的焦点。在云环境下,网络数据分布呈现复杂化、多......
随着信息技术的迅速发展,图像数据的种类和数量不断增加。如何从大规模的图像集中检索出所需要的图像成为急需解决的问题。伴随着云......
随着“大数据”概念的出现,国内外研究学者越发集中关注如何从大数据中获取有价值的知识,如何运用智能算法从海量数据中发现有意义的......
时间序列是按照时间先后顺序排列的数据序列,其在语音识别、天文、医学、机器学习、模式识别等诸多领域有着广泛的实际应用。在时......
随着互联网的发展迎来大数据时代,使数据量呈现指数级增长,如何在众多数据集中选择满足用户兴趣的数据成为重点研究内容。skyline......
聚类分析算法是数据挖掘领域中一个非常重要的分支,一直都受到广大国内外研究人员的喜爱。它基于用户给定的原始数据对象及其关系,......
随着工业信息化的发展,各类设备积累了海量的历史维护、故障数据,如何利用好数据挖掘技术从历史数据中提取有用信息,为工业设备故......
序列模式挖掘是数据挖掘领域的研究课题之一,针对传统算法对处理大数据普遍存在扩展性问题.为了改进扩展性,本文提出云模式下基于M......
期刊
随着用户数量与数据体量的飞速增长,传统基于相似性矩阵构造的协同过滤算法求解效率低下。针对这一问题,提出一种基于MapReduce框......
针对并行DCNN算法在大数据环境下网络冗余参数过多、收敛速度慢和并行效率低的问题,提出了一种并行化深度卷积神经网络优化算法—......
为解决负荷预测时因数据量大、数据种类繁多带来的计算速度慢、预测精度低等问题,在MapReduce并行编程框架下,提出基于小批量随机......
为解决小规模航班串编制问题,提出一种简单的非分布式算法,并在单机运行平台进行测试。然而,随着民航企业的迅速发展,航班数量不断......
图的稀疏化是图聚类分析中数据预处理的关键操作,已得到广泛的关注。针对图数据日益普及、规模不断增大的现状,提出了一种基于MapRed......
随着移动通信和互联网技术的迅猛发展,如何高效地分析移动用户的需求并及时推送有用信息成为数据挖掘领域的热点之一。针对上述问......
当前的大规模数据分析通常在MapReduce框架下执行查询,由于MapReduce框架本身的冗余性以及查询之间的重叠性,复用已有查询的结果可......
针对当前电网行业产生的海量数据,提出采用规范化元数据管理等方式来实现对电力行业数据的统一存储与管理方案。首先通过数据预处......
MapReduce是一种适用于大数据处理的重要并行计算框架,通过在大量集群节点上并行执行多个任务,极大地提高了数据的处理性能。然而,......
海量数据利用传统Apriori算法进行挖掘会浪费大量存储空间和通信资源,导致算法效率低下,因此,提出MapReduce框架下Aprioi算法的改......
本文探讨了MapReduce框架,它为控制成本、优化集群资源利用提供了保证。对于分布式计算层面,资源优化有两个途径:一是通过精细化的资......
高能物理对撞机产生数百亿计的物理事例,而物理分析则是从中选取几千个有意义的事例,该分析过程是一个典型的大数据处理及数据挖掘......
智慧城市通过无所不在的物联网获取并传输信息,将海量实时数据交由云计算进行处理,并将处理结果反馈到控制系统,通过物联网实现智......
采煤机作为现代化矿井安全、高效生产的主要机械设备,是一个将机械、电子电气系统和液压传动系统集成于一体的复杂系统,现如今针对......
最小生成树(MST)作为图论中最经典算法之一,引发了人们经久不衰的关注。由于MST的性质,在规划、网络和医学等各个领域得到了广泛的......