MapReduce计算模型相关论文
随着科学技术的飞速发展,我们生活的世界被越来越多的数据所覆盖。如何在这大海一般的数据丛林中发现有用的知识,成为了一门单独的......
I/O性能优化是海量数据处理性能优化的核心问题之一。MapReduce计算模型已经广泛应用于海量数据处理,然而该计算模型并没有提供I/O......
文本是存储和交换信息的最自然的方式,但是,随着信息时代的高速发展,文本的数量呈指数级增长,因此,如何迅速的从海量文本中获取信息就成......
资源描述框架(Resource Description Framework,RDF)是W3C组织提出的描述万维网上资源的通用模型,该模型已广泛应用于诸多领域,如语义......
随着信息通信技术、多媒体技术的蓬勃发展和网络宽带的迅速普及,互联网进入读图时代,人们渴望用一种最简单直接的方式来看世界,由......
随着地理信息系统(GIS)在各行业中应用的不断发展,积累了大量GIS空间数据,数量级达TB甚至PB级。传统的GIS处理方式大都采用单机处理......
Kmeans聚类算法是分布式索引构建中比较有效的文档分割方法。然而,基于单节点Kmeans算法的索引构建方法在应用于海量数据时存在两个......
面对大规模数据量的快速响应和处理,尤其是以Web网页和数据搜索为主的当下电子商务等互联网应用的瓶颈,引入MapReduce计算模型改变......
针对Hadoop云平台下MapReduce计算模型在处理图数据时效率低下的问题,提出了一种类似谷歌Pregel的图数据处理计算框架——My BSP。......
随着移动社交网络和基于位置服务的发展,时间信息、空间位置信息与短文本信息间的联系日益紧密,时空信息的综合处理与分析有着重要......
大规模语料库的训练是使用三元N-gram算法进行中文文本自动查错中一个重要的基础工作。面对新媒体平台每日高达百万篇需处理的语料......
提出了一种新的基于MapReduce大数据计算模型的PGA,该算法将遗传算子计算从Reduce阶段提前到Map阶段,从而获得了更好的并行度。通......
在软件研发的过程中,针对代码的缺陷检测为软件的质量及可靠性提供了重要保证。随着云计算技术日益普及,将代码缺陷检测服务,移植......
针对当前网络中视频媒体数量大、更新快、内容多、下载难,以及基于单机的视频网络爬虫系统中的处理速度慢、并发度低和下载速度慢......
国家气象信息中心存储和保存了50多年宝贵的长序列历史资料,这些历史资料在实时、准实时业务及科研中需要经常被使用并进行气象科......
经典的分布式k-means聚类算法随机选取初始聚类中心,进行多次的迭代,容易使得聚类效率低,网络通信量大,而且聚类结果不稳定。针对这些......
针对MapReduce计算模式在Map阶段结束后会产生海量中间数据,导致存在大量跨越机架交换机的数据通信问题,提出一种优化Map密集型作业......
针对传统的向量空间模型及一元语法模型表示话题的文本特征时忽略词语之间语序关系的问题,提出一种基于NGram语言模型的并行自适应......