【摘 要】
:
近年来,随着互联网的发展,移动互联网、物联网的普及,可探测和采集的数据急剧增加。随着数据量的增加,人们开始认识到蕴含在数据中巨大的财富,并开始以各种形式挖掘、开采,数据渗透
论文部分内容阅读
近年来,随着互联网的发展,移动互联网、物联网的普及,可探测和采集的数据急剧增加。随着数据量的增加,人们开始认识到蕴含在数据中巨大的财富,并开始以各种形式挖掘、开采,数据渗透到各行各业,成为了重要的生产力要素,大数据时代到来了。技术方面,与之俱来的是大数据运算技术和数据挖掘、机器学习算法研究,前者负责解决大数据处理的计算能力问题,后者负责解决大数据处理的计算方法问题。随着数据量的不断扩大,处理方法的愈发复杂,大数据对计算能力的要求很快超出了单机计算能够达到的水平,于是分布式计算集群应运而生。故此,原有数据建模处理方法的分布式迁移成为了解决大数据处理计算能力不足的可行之法。本文从隐变量模型训练方式出发,结合MapReduce并行编程框架运算特点,设计实现了一套基于MapReducc的隐变量模型训练系统。 本研究主要内容包括:⑴调研了各类隐变量模型和MapReduce编程框架。本文深入调研了最常用的几种隐变量模型以及常见的训练方式,结合MapReduce编程框架任务分发、资源调度原理,分析了使用MapReduce实现隐变量模型训练的可行性和高效性。⑵设计并实现了一套基于MapRcduce并行编程框架的隐变量模型训练系统。本系统包含两种不同的隐变量模型训练模式:快捷训练模式和批量训练模式,其各自优劣分明,适用于不同的应用场景。⑶对上诉训练系统训练性能和资源消耗进行了全面而深入的实验测试。本文以训练效果、训练速度以及训练过程中消耗资源为主要考察对象,使用真实的大数据和大型Hadoop集群对所实现系统中两个训练模式进行了全面的试验,进一步分析、论证了两种训练模式各方面的优劣,并为后续工作提供了有价值的引导。
其他文献
时钟网络就像是同步电路中的神经网络,时钟信号控制着所有同步单元的正常工作。在当今深亚微米工艺条件下,集成电路的集成度和工作频率都大幅度提高,互连线效应严重影响着连线长
该文对Linux文件管理和虚拟文件系统进行了分析,比较了各种可用于嵌入式系统的文件系统,并提出了构建嵌入式文件系统的基本方法.根据嵌入式系统存储空间小和实时性要求高的特
调度问题是一类重要的组合优化问题,它无时不有,无处不在.它涉及的领域包括制造业、交通运输业、经济金融业、管理领域等.然而实际的调度问题往往都是NP完全问题,且具有动态
特征建模是领域工程中获取可复用软件需求的一种重要方法。该方法将软件需求组织成一组特征和特征之间的关系,通过定制技术(选择一组可复用特征)实现软件复用。特征模型的一致性
目前数字图书馆的元数据一般是由图书馆界专家结合领域的知识制定的,该文利用建模方法从一个全新的角度对主题数字图书馆中元数据的构建问题进行研究.结合科技部《敦煌学数字
随着Internet的迅速发展,网络安全变得日益重要,该论文主要探讨了网络系统底层WinPcap数据包俘获的体系结构和数据包分析的应用,对协议信息内容进行分析,以及研究入侵检测.作
知识工程是人工智能学科的重要研究领域,知识共享和重用是知识工程研究的主要问题,而本体是解决这一问题的有效方法.近几年本体已经成为计算机领域的研究热点,主要研究本体表
该课题采用高速CPU芯片和嵌入式软件技术解决了用户计算机和隔离器之间的网络通信问题.采用虚拟双硬盘技术用软件解决了单硬盘的分区隔离问题,实现了用单硬盘来代替双硬盘完
作为J2EE(Java 2 Platform Enterprise Edition)应用服务器重要组成部分的分布事务管理器遵循JTS(Java Transaction Service)和JTA(Java Transaction API)规范,提供J2EE分布计
该课题采用B/S多层软件的结构,实现高速公路收费系统的各子功能,通过WEB系统来实现收费系统的网络管理.该论文的第一章介绍了课题的背景及B/S软件结构的基本概念,以及多层软