小文本语料库在Hadoop平台上的存储策略研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:lxz119110
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语料库是指基于不同目的收集起来的文本集合。在网络环境下收集的语料库,其包含的文本大小一般为KB级别,很少达到MB级别,故称之为小文本语料库。由于语料库中所包含的文本数据通常规模庞大,处理时计算量大,且许多操作具有并行性,因而产生了将文本处理迁移到分布式并行处理平台的趋势。近几年出现的Hadoop云平台,由于其具有良好的海量数据存储和高效计算能力,且是一个开源平台,因而被广泛应用于海量数据的分布式并行处理中。Hadoop的两个核心组件分别是:HDFS分布式文件系统和Map Reduce并行计算模型。HDFS为MapReduce的计算提供了底层存储支持,其存储数据的方式决定了Hadoop的整体性能与MapReduce处理的速度。由于HDFS是为流式大文件设计的,其在处理小文本时,存在着一些客观问题:一是NameNode占用内存过大,可能会出现溢出,由于各小文本的元数据占据固定大小内存,小文本数量越大,内存占用越大,甚至溢出;二是大量读取小文本时,需在DataNode间频繁跳转,导致读取性能降低;三是相比同等大小的大文本,小文本语料库处理速度过慢。为了解决小文本语料库在Hadoop平台存储中,出现上述分布式存储与检索速度间的矛盾问题,本文提出了一种新的HSCS(Hadoop Smalltexts Corpus Storage)存储策略。该策略首先使用小文本合并技术在HDFS架构中添加一层Merge_Client,将多个小文本文件合并为目录结构式的大文本文件,有效减少了内存压力和访问DataNode的次数;然后采用小文件检索技术,给合并后的大文本文件添加一个二级索引结构及设计索引记录的数据结构,并且添设一个索引文件阈值,当超过阈值时,使用虚拟内存技术,将使用频率最低的索引文件置换到对换区中,减少文件管理的空间复杂度,从而解决了在合并为目录结构式的大文本文件中,快速检索所需小文本问题,有效提高了小文本的检索速度。最后设计的实验,对比了小文本语料库合并前与合并后的写入速度和文本预处理速度,对比了采用HSCS方法和SequenceFile方法的文本检索速度,以及对比了采用虚拟存储技术后无需置换时与置换时的检索速度。实验结果表明,本文提出的新的HSCS存储策略在处理小文本语料库时是可行有效的。
其他文献
自然语言中的实体是指语句中出现的客观世界中存在的,并可相互区别的对象或概念。推断实体所属的语义类型是自然语言处理中的一项有着重要意义的任务,也是一项很有挑战性的任务
随着智能手机等移动终端的兴起,移动互联网正在慢慢地改变人们的生活和习惯。基于位置服务(LBS)的应用作为移动互联网的一个重要组成部分,是每一个移动终端上必备的应用程序。
云计算作为一种新的信息技术,为海量数据的分析和处理带来了全新的视野。它是一种商业计算模型,将计算任务分布在大量计算机构成的资源池上,使用户能够按需获取计算能力、存
轨迹可以看作是移动对象随着时间的变化在空间中留下的印迹。近年来,随着民用GPS(全球定位系统,Global Positioning System)等定位设备在移动终端上的广泛使用以及基于位置服务
二十一世纪以来,中国互联网行业得到了蓬勃的发展,网民规模也逐年攀升。微博是近年来互联网上越来越流行的消遣方式,上到政商名流,下至普通百姓,皆乐在其中,微博已逐渐变成了许多人
随着社会化媒体应用的普及,网络上留有大量的用户行为信息。尽管大多用户已具备隐私保护意识,有意识地隐藏身份信息,但是常常忽略了随机动态的行为信息带来的隐私泄漏。攻击者通
学位
现实生活中存在众多复杂的系统,这些系统构成了抽象的复杂网络。近些年来研究者们对复杂网络的研究产生了浓厚的兴趣,其中复杂网络聚类方法研究成为一个热点研究问题。复杂网
汉语语料库的相关数据已经广泛运用于语言研究、语言教育、人工智能等数个相关领域。随着当代自然语言处理技术以及大数据技术的迅速发展,这些领域的技术研究对汉语相关的分
无线射频识别技术(Radio Frequency Identification, RFID)是一种应用广泛的非接触自动识别技术,其基本原理是利用射频信号通过空间电磁耦合(交变磁场或电磁场)实现无接触信