基于汉-缅双语语料的双语实体抽取方法研究

来源 :昆明理工大学 | 被引量 : 2次 | 上传用户:roger84115
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
双语实体在跨语言信息检索、机器翻译等领域有着非常重要的应用。由于缅甸语为资源稀缺语言,汉-缅双语语料库构建面临着很多困难。本文研究缅甸语语言特点、汉-缅双语可比语料库构建、汉-缅双语实体抽取方法,研究成果对开展汉-缅双语跨语言检索、机器翻译具有重要的应用价值。论文主要取得以下成果:(1)在缅甸语语言特点分析方面,分析了缅语字符、音节、词语、短语、句法等语言知识特点。构建了缅甸文的词性标注规范、缅甸文句子的词性标注、缅甸文中的助词特点。对语言规则进行分析为第四章研究作下基础工作。(2)汉-缅双语语料库构建方面,采用网络爬虫技术从互联中自动获取汉-缅双语文档。并通过人工进行校对构建了689篇汉-缅双语文档10118条汉-缅双语句对。(3)在汉-缅双语实体抽取方面,提出了基于汉-缅双语可比语料的双语实体抽取方法。首先,抽取中文句子中的实体以及实体类别、位置、长度等特征,以此对缅文实体所在句子中的位置及长度进行约束。然后,基于缅语助词对缅语句子进行功能标记,并对缅语候选实体片段进行切分。最后,通过计算中文实体与候选缅语实体片段之间的相似度,选取相似度最大的候选片段作为对应的缅语实体。实验证明了提出方法相比基于词典的方法具有明显的性能提升。(4)研发了汉-缅双语抽取原型系统,实现了从汉-缅双语可比文档中自动抽取双语实体,并将抽取到的实体自动保存到双语实体库中。
其他文献
目前,互联网快速发展使得数据中心规模不断增大,信息技术不断推陈出新使得数据中心基础设施的部署方式和使用模式不断完善。但同时数据中心的耗电量增加等问题日渐凸显,构建
目的:本研究通过测量单侧腰椎间盘突出症患者双侧臀中肌的功能及硬度,以探讨分析臀中肌与腰椎间盘突出症患者椎间盘突出侧的关系,旨在为临床对腰椎间盘突出症的非手术治疗提供新思路。方法:本研究在2020年02月至2021年02月共纳入62例四川省骨科医院颈肩腰腿痛2科的住院病人,均明确诊断为腰椎间盘突出症并伴有单侧神经根症状者。首先对患者椎间盘突出侧进行分组,将症状侧分为患侧,对侧为健侧;再记录患者站立平
等几何分析是一种直接基于CAD模型的精确几何表示对产品性能进行分析的新方法,为实现CAD/CAE的无缝融合提供了新的思路。在等几何分析中,计算域参数化对最终的分析结果有很大
人类的进步离不开文明的传承与发展。在这个传承与发展的过程中,相互交流相互学习的方式使得知识代代延续下去。其中最简单的交流学习方式是问答方式。随着互联网的普及,各类
随着云存储技术的高速发展,由于其管理灵活、价格低、数据访问便捷的特点受到了许多用户的青睐。然而近年来,云端数据泄露的事件不断地在一些大型云服务供应商(Cloud Service
细胞的健康状态和各种生命活动伴随着细胞温度的变化,因此对单个细胞温度变化的研究具有重要意义。目前只能对细胞群的温度变化进行可靠的测量,但测量不够精确,而对单个细胞
随着Internet的飞速发展,信息传播变得更加方便和快捷,但同时也给信息安全问题带来了巨大挑战。信息隐藏技术以传输的存在性和信息的隐蔽性为信息安全传输提供了可靠的技术手
软硬件划分是软硬件协同设计中的关键技术之一,划分结果的好坏直接决定系统设计的优劣。近年来,异构MPSoC逐渐成为高性能嵌入式系统的发展趋势。然而,传统的软硬件划分技术主
资产管理是保险企业运营过程中较为重要的业务流程,传统的资产管理方法在采购时一般依赖于仓库管理人员的主观判断,存在正确率不高及客观性不足等问题。同时旧有的C/S架构在
旧世界的鼻叶蝙蝠(Hipposideridae)是一个蝙蝠族,使用复杂的挡板形状的鼻叶去衍射他们鼻叶向外发出的波包。蝙蝠可以改变它们鼻叶的形状通过肌肉的运动。在相近的马蹄形蝙蝠