维汉双语平行语料库构建技术研究与实现

来源 :西安理工大学 | 被引量 : 0次 | 上传用户：isongnosi

【摘要】

：

随着计算机和互联网技术的飞速发展，在自然语言处理领域，以双语平行语料库为基础的研究日益增多。双语平行语料库可被应用于机器翻译、双语词典编纂、词义消歧及跨语言信息检索

【作者】

：

周杰

【机构】

：

西安理工大学

【出处】

：

西安理工大学

【发表日期】

：

2011年期

【关键词】

：

机器翻译双语平行语料库网页信息抽取构建技术维吾尔语汉语

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着计算机和互联网技术的飞速发展，在自然语言处理领域，以双语平行语料库为基础的研究日益增多。双语平行语料库可被应用于机器翻译、双语词典编纂、词义消歧及跨语言信息检索等领域。维吾尔语作为我国重要的少数民族语言之一，目前对它研究主要侧重于语言本身，而对于维汉双语平行语料库的研究较少。本文针对现有维汉双语平行语料稀少的问题，展开了关于构建维汉双语平行语料库所需技术的研究。　　句对齐技术作为构建维汉双语平行语料库所需关键技术，能够从已有的维汉对照文本中获得双语句对齐文本。通过阅读相关文献，本文分析已有方法的优缺点，结合维文汉文问语言学关系，提出基于句位置分布信息的多策略融合句对齐方法。实验证明，在针对某一领域内的维汉双语对照语料进行句对齐处理时，该方法较已有方法可以有效提高句子的对齐准确性。　　然而，在语料的实际收集过程中，仅对可以进行句子对齐的维汉双语语料进行收集显然不能满足构建较大规模语料库要求。因此，本文从维文出发，通过互联网收集维文网站中的维文语料，并对其进行人工翻译，最终可获得大量内容丰富的维汉双语平行语料。在对维文语料获取方法的研究中，本文通过设计网络爬虫程序获取维文网页文档，然后结合维语语言学特点设计合理的信息抽取策略完成有价值的维文语料抽取，之后通过人工翻译的方法获得维汉双语平行语料。　　最后，本文根据某企业实际需求，以上述构建维汉双语平行语料库所需技术为基础，设计并实现了一个具有一定规模且功能丰富的维汉双语平行语料库收集系统。

其他文献

基于关键分支的近似数据流测试方法研究

在数据流测试技术中，覆盖程序中所有变量的定义-使用路径是衡量数据流测试好坏的重要标准之一。但是，由于变量的定义-使用路径中存在测试用例无法覆盖的路径，而且路径的插桩点过

学位

近似数据流测试定义使用路径插桩点关键分支覆盖测试

WINDOWS ROOTKIT的检测与清除研究

RootKit是能够持久、可靠地存在于计算机上，而难以被检测的一组程序或代码，它使得攻击者可以隐藏自己的踪迹，并且拥有超级用户的权限。近年来，攻击者通过将RootKit与恶意程序相结

学位

WINDOWS ROOTKIT用户空间内核空间隐藏功能挂钩技术检测方法清除方法

叶约束最小生成树问题的优化算法研究及应用

最小生成树问题是一个经典的网络优化问题，而实际应用中往往要对生成树加上某种限制，形成了一类有约束的最小生成树问题，如在有n个顶点的图G中求至少带有L片叶子的最小生成树，即

学位

网络优化LCMST问题子集编码遗传算法2-opt领域搜索无约束p叶约束最小生成树

静态图像压缩编码算法的实现研究

本文以基于小波变换的静态图像压缩算法的原理为基础，主要研究了静态图像压缩算法的实现，为其在嵌入式体系结构下的实现奠定基础。　　论文研究了小波分析，多分辨率分析，Mallat

学位

图像压缩编码算法小波变换嵌入式零树小波数据并行算法

一个语义关联模式挖掘系统的设计与实现

随着语义Web的发展，在线的语义数据越来越丰富。面对庞大的由语义对象和它们之间的语义关联构成的数据之网，帮助用户挖掘到数据之网中的语义关联模式进而能够快速有效地构建用

学位

语义Web语义关联模式频繁子图挖掘数据处理

基于多尺度几何分析的静态图像压缩算法实现

本文主要实现了基于混合预处理方法的嵌入式零树块编码算法，其目的是为了让该算法能够在以后的嵌入式体系结构中更好地应用。　　首先，研究了小波变换以及多尺度几何分析方法

学位

图像压缩多尺度几何分析小波变换Contourlet变换嵌入式编码方法

模糊聚类算法的有效性及参数m的研究

在计算机网络化迅猛发展的时代，如何有效、快速地从大量数据中获取人们需要的知识成为许多学者以及研究人员关注的焦点。数据供给能力和数据分析能力间的矛盾日益突出，使得人们

学位

模糊聚类分析聚类有效性数据挖掘模糊c均值算法点密度惩罚

基于树形结构的文档协同编辑一致性控制研究

文档协同编辑是计算机支持的协同工作的重要应用之一，主要是为了实现多人异地同步编辑共享文档。随着分布式技术的不断发展，文档协同编辑工作模式产生了组织分工逐渐细化、人们

学位

文档协同编辑树形结构一致性控制操作转换冲突消解

面向RFID海量数据的图挖掘技术研究

随着科技的进步,射频识别技术(Radio Frequency Identification,RFID)技术已应用于诸如仓储管理与物流、邮件/快运包裹处理、图书管理、医疗保健等领域。RFID技术与互联网、

学位

数据挖掘射频识别频繁路径图挖掘图概化轨迹分段轨迹聚类

一种基于流程面向领域的软件框架

作为快速搭建企业级应用管理平台的重要手段，软件复用技术在全球信息化建设进程中扮演越来越重要的角色，是实现软件工业化、规模化、标准化的重要途径。而软件框架又是实现大规

学位

工作流内嵌于软件多套工时劳动定额管理业务逻辑功能算法Petri网模型WWF工作流.NET构件

维汉双语平行语料库构建技术研究与实现

与本文相关的学术论文