基于Spark的会话语料库管理系统

来源 :河北师范大学 | 被引量 : 1次 | 上传用户:bell0521
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年来,随着计算机技术的快速发展,语料库作为语言学研究的一种手段,对汉语、英语以及世界各国语言的研究起到了重要的推进作用,语料库的建设也引起了国内外的广泛关注。语料库是为某一个领域或者多个领域收集的具有一定结构的、具有代表性的、并且能够被计算机程序检索的有规模的语料集合。不同规模、不同类型的语料库对语言学研究具有不同的影响,并且随着语料库的加工程度越来越深,应用范围也越来越广。把会话语言作为研究对象,建立相关的会话语料库,有助于人们将语言的结构规律更加形式化、计算化的表示出来。本文主要针对会话语料进行语料库管理系统的设计,对语料的存储以及查询进行研究。会话语料具有一定的结构,可以使用XML文档进行语料的存储,利用Spark计算框架对语料进行分布式存储。本文的主要内容如下:(1)设计并实现了基于Spark的会话语料库管理系统,系统中主要包括存储模块和查询模块。用户可以根据自身的的需求上传语料建立语料库,也可以对语料库中的语料进行聚合查询等查询。(2)针对会话型语料自身语言结构的特点对会话型语料的存储进行研究,使用XML对会话型语料进行存储,并将数据存储在大数据环境下,实现了将用户上传数据转换为XML文档。(3)对于大数据环境下语料,使用原始的XPath查询或者XQuery查询对XML文档进行查询响应时间会越来越长。为了提高查询的效率,利用Spark对XML文档进行分布式的查询,使用XPath或者XQuery查询,实现了对语料的分布式查询。
其他文献
随着我国经济体质改革的不断深化,以及面对加入世界贸易组织的巨大机遇和挑战,社会就业的结构也在不断发生改变。企业的就业机会不能只是局限于提供职位,而应该改变策略,为各
学习兴趣是学生努力学习的动力源泉,是影响学习效果的关键因素。随着我国新课程改革的不断推进,人们更加关注学生的自主学习能力。高中物理知识具有高度的逻辑性和抽象性,所以对于大多数学生来说比较枯燥。如果高中生能对物理学科产生浓厚兴趣,那么学生就会去主动学习。让学生心情愉悦的学习,而不是成为艰难求学路上的“苦行僧”,只有这样才能体现出对学生的人文关怀。因此,在高中物理教学中,广大教师在教学过程中应采取有效
目的观察“杨氏”絮刺拔罐法治疗膝骨关节炎的临床疗效。方法将60例膝骨关节炎患者随机分为治疗组和对照组,每组30例。治疗组采用“杨氏”絮刺拔罐法治疗,对照组采用常规针刺治
现如今,员工的工作环境发生了较大的改变,工作环境正变得越来越动态和分散(Frese&Fay,2001;Grant&Parker,2009)。为了跟上全球竞争,技术变革和创新发展的步伐,越来越多的组织
为了提高SRAM的成品率并降低其功耗,提出一种优化的SRAM.通过增加的冗余逻辑及电熔丝盒来代替SRAM中的错误单元,以提高其成品率;通过引入电源开启或关闭状态及隔离逻辑降低其功耗.利用二项分布计算最佳冗余逻辑,引入成品率边界因子判定冗余逻辑的经济性.将优化的SRAM64K×32应用到SoC中,并对SRAM64K×32的测试方法进行了讨论.该SoC经90 nm CMOS工艺成功流片,芯片面积为5.
针对协同序贯高斯模拟在确定插值公式中的权值时出现的交叉矩阵不稳定问题,提出一种基于Markov模型和协同序贯高斯模拟的插值方法.利用Markov模型的屏蔽效应,假设待模拟硬数据可以屏蔽其位置以外的硬数据对待模拟位置处软数据的影响,对协同序贯高斯模拟进行逼近时只保留与待模拟硬数据同位置的软数据,而不考虑其他位置的软数据,从而解决了交叉矩阵不稳定的问题.实验结果证明,该方法插值误差小,模拟效果好.
回顾与现状石油和天然气资源的勘探与开发,大都在戈壁、沙漠、荒滩、草原等地区,而且是野外露天作业,对装备的要求比较特殊.除一般通用设备由机械部门提供外,专用设备,如勘探
目的了解谵妄在综合医院老年住院患者中的临床特点。方法2008年至2011年内综合医院老年住院患者中经精神科会诊明确诊断为谵妄者364例,采用自编调查表对会诊原因、原发躯体疾