【摘 要】
:
随着自然语言处理技术的发展和大规模语料库的出现,语言模型的大规模训练成为现实。本文所研究N元文法模型是信息检索、机器翻译、语言识别等很多自然语言处理的重要工具。使
论文部分内容阅读
随着自然语言处理技术的发展和大规模语料库的出现,语言模型的大规模训练成为现实。本文所研究N元文法模型是信息检索、机器翻译、语言识别等很多自然语言处理的重要工具。使用N元高阶模型和大规模训练语料可以显著的提升系统性能,因此大规模语言建模的研究备受关注。然而,个人计算机的资源是有限的,无法进行大规模语言建模,所以需要利用分布式系统来进行建模。本文主要工作是利用开源的Hadoop MapReduce编程框架和分布式数据库Hbase对N元文法模型进行研究评测。其中提出的方法主要以时间成本和空间成本为依据,来评估不同的Hbase表结构和压缩方法的好坏。该方法主要适用于Hadoop的Mapreduce框架和Hbase下进行训练和测试。实验对一元,二元和三元文法语言模型进行了4千万词量的训练,然后建立了5种不同的数据库表结构对实验结果进行了比较和评价,结果显示基于n/2元词组结构的表比较适合分布式语言模型。本文的结果和方法可以用于进一步研究机器翻译和其它大规模分布式语言处理领域。
其他文献
近年来,随着网络的普及和发展,计算机网络已经渗入到生活中的各个方面,而随之出现的日益严峻的网络安全,尤其是网络入侵问题,严重影响了网络的正常使用,所以网络入侵检测的研究,成为
在当前互联网和电子信息技术迅猛发展的时代里,以嵌入式技术、人工智能技术和通信技术为依托的最具有代表性热门技术也在迅速发展。随着中国政府提出“互联网+”创新驱动模式
本文首先阐述了IPv4网络向IPv6网络过渡是一个必然趋势,同时过渡也将是一个长期的过程。解决IPv4与IPv6网络在相当长共存期间内互联互通问题的技术策略主要有双协议栈技术、隧
无线传感器网络(Wireless Sensor Network,WSN)涉及计算机技术、微机电系统技术、无线通信技术、自动控制技术和人工智能等多种学科,是一个高度交叉且较为前沿的研究热点,其
Web服务是一种基于网络的、分布式的、独立于平台的模块化组件,随着Web服务技术的发展,越来越多的Web服务提供者通过网络将简单灵活的Web服务进行共享。在现实应用中,为了满
随着图形处理器(Graphics Processing Unit,GPU)技术的发展,GPU强大的浮点运算能力和并行处理能力使得它在非图形领域得到了广泛的应用。基于GPU的通用计算(General Purpose GPU,GP
近年来,众商业网站相继使用验证码技术。验证码技术作为提高网站安全的一个重要手段,可以成功解决如垃圾邮件的攻击、批量注册分发被盗资源、在线投票系统上的虚假投票,暴力
目标检测是从获取的图像中提取感兴趣的区域,作为图像处理的一个基础而重要的问题深受国内外学者的重视,在视觉导航、目标侦查、空间遥感等方面具有广泛应用。由于目标本身外
聚类分析是数据挖掘的一个重要分支,模糊理论的引入给聚类分析注入了新的活力。目前,模糊聚类已广泛应用于统计学、市场学、生物学等领域。现有聚类算法大多不适用于强噪声数据
随着计算机技术与互联网技术的快速发展,软件系统已经应用到人们生活的各行各业,越来越多的软件系统部署在Internet平台上,使得软件系统的信息交换与共享速度越来越快,同时,