可比语料中命名实体翻译等价对抽取方法研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:icetuping
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大规模的命名实体翻译等价对可以有效的改进机器翻译、跨语言检索等系统的性能。因而前人提出了很多抽取命名实体翻译等价对的方法。早期的方法主要是从平行语料中进行抽取,这类方法存在规模不足、领域局限、不能很好的处理新词等问题。同平行语料库相比较,可比语料库的限制少、易于更新、并且容易获得。因此现在可比语料中知识的挖掘已成为研究的热点。本文提出一种在可比语料库中,基于多特征的中英命名实体翻译等价对抽取方法。具体而言,首先从中英可比语料库中分别抽取中文命名实体和英文命名实体,然后通过计算中英命名实体之间多个特征的特征值得到命名实体匹配对,最后使用基于多特征二值分类模型来判断命名实体匹配对是否为正确的命名实体翻译等价对。其中在得到命名实体匹配对时,本文使用了判别训练算法来进行多特征的融合。最终得到正确率较高的命名实体翻译等价对集合。本文设计和实现了基于上述方法的命名实体翻译等价对抽取系统,系统的输入是中英可比语料;输出是中英文的命名实体翻译等价对集合。系统分为4个模块:(1)中英文命名实体抽取模块;(2)多个特征的命名实体翻译等价对匹配模块;(3)多特征融合模块;(4)命名实体翻译等价对对齐模块。中英文命名实体抽取模块,分别使用中文命名实体抽取工具和英文命名实体抽取工具,从可比较语料中抽取中文命名实体和英文命名实体。多个特征的命名实体翻译等价对匹配模块,使用翻译模型特征、音译模型特征、匹配模型特征等六个特征计算得到文命名实体和英文命名实体的匹配对。多特征融合模块,使用判别训练算法最小样本风险(MSR)算法,计算各个特征的特征参数进行特征融合。命名实体翻译等价对对齐模块,将对齐问题转化为分类问题,采用支持向量机(SVM)分类模型,使用翻译模型、音译模型等特征,进行二值分类,从而判断出匹配对是否为命名实体翻译等价对。本文的主要贡献有:(1)提出了一套能从可比较语料库中抽取命名实体翻译等价对的方法;(2)有效的利用了已有的方法并进行有机的整合;通过实验证明,综合多特征、特征融合、对齐模型等模块,该框架可以获得比同类方法更好的性能。
其他文献
双语词典是一种重要的语言资源,但现有的基于可比语料库的双语词典抽取方法在体系结构、所依赖的基础性资源等方面差异较大,这使得在统一的实验条件下对各种算法进行比较变得
意义:全球每年有超过20万妇女被诊断为卵巢癌。在发达国家,卵巢癌是导致妇女因癌症相关因素死亡的第五大杀手。这一高致死率的原因有二:一是它常常在发病后期才能被诊断出来,二是
利用新近研发的成像系统拍摄的高分辨率图像,可对神经元的活动进行三维成像。
目的观察血清白细胞介素(IL)及红细胞免疫在新生儿黄疸中的检测价值。方法选取73例新生儿黄疸为观察组,同时期的73例正常新生儿为对照组,然后检测与比较两组新生儿的血清IL及红细
新冠肺炎在全球爆发后,由于旅行禁令、港口限制等原因致使数万名邮轮船员被困于船上,自杀事件频发,目前他们的现状令人担忧。为了引起社会对于邮轮船员群体的关注,解决目前船
对基于平行语料库的双语术语抽取和基于可比语料库的双语术语抽取进行对比分析,说明基于可比语料库的双语术语抽取的研究意义与应用价值。分析总结解决该问题的主要方法及其
谈到今后的设想,王海峰沉思片刻讲道:企业经过几年的打拼,发展到今天的确不容易,现在追求的是一个平稳,需要脚踏实地做好各项管理工作,为企业长远发展打好基础。
李立权是宜宾市兴文县农业局退休干部,年满66岁了。2010年,兴文县成立老科技人才协会,他被选为协会党支部副书记、副会长兼秘书长。在老科协工作中,李立权把加强和完善党支部
宁波迅高智能科技有限公司是一家以工业与民用智能控制技术、全自动数字图像分析技术研究和系统软硬件产品开发的高科技公司,该公司在工业控制、楼宇自控、智能建筑方面有着
期刊
贪婪就如同魔鬼统治着黑暗世界,它引诱我们像崇拜上帝一样向它顶礼膜拜。它用阴谋诡计引我们误入歧途,偷偷地潜入我们的理智和情感,设下欲念的罗网,使我们身不由己、深陷欲海,最后