从可比语料中抽取等价实体翻译对的研究

被引量 : 0次 | 上传用户:q496712523
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代的到来,跨语言自然语言处理技术在人们的工作和生活中发挥着越来越重要的作用。其中,实体翻译技术在跨语言自然语言处理任务中有着至关重要的地位。本文主要研究从可比语料中抽取等价实体翻译对。在主流的context-based方法中,种子词典的质量直接影响该方法的最终效果,却鲜有研究者关注。本文根据种子词典存在的三个主要问题入手,分别提出了相应的解决方案来提高实体对抽取的效果。本文首先针对种子词典译项词粒度和语料粒度不一致的问题,提出了使用自分词方法来使词典的译项词粒度可以适应语料的粒度。同时提出了基于译项词长度的权重分配方法和基于词频分布相似性的权重分配方法,以此增加种子词典的自适应性,提升对齐效果。其次,本文针对使用双语种子词典进行翻译时存在的词义分散问题,提出了一个高效的翻译信息压缩方法,该方法使用分布式词向量来挖掘单词之间的语义信息,同时通过利用双语词典本身的可靠信息来决定单词之间的语义关联,然后通过层次聚类模型实现了翻译信息的压缩。该方法做到了语言无关而且不需要额外的外部资源,在实体抽取任务上适用于所有类型的命名实体和未登录词,具有极强的可扩展性。最后,本文针对种子词典覆盖率不够的问题,使用高关联度词对种子词典没有覆盖到的词进行替代,由此来扩充种子词典的覆盖率。实验证明,本文提出的方法能够很好的改善种子词典的质量,使得从可比语料中抽取等价实体翻译对任务的MRR值最终高出Baseline系统约7个百分点,有比较显著的提升。
其他文献
水利施工是我国经济发展的基础,能够对我国的经济起到保障和支撑的作用,必须要对水利施工管理工作中遇到的问题进行深刻的分析,要对水利施工体制进行改革,不断地进行思想上的创新
新世纪以来,文化产业越来越成为“朝阳产业”,在经济社会发展中发挥越来越重要的作用。在欧美、日韩等国家,文化产业早已被列为国家战略部署的重要环节,成为国民经济的支柱性产业
本文以马克思主义唯物史观为指导,坚持社会历史发展的过程论来理解新闻工作者社会责任的内涵与主要意义,从社会学、伦理学、哲学角度对新闻工作者社会责任担当问题的时代原因进
<正>张文泰老中医,临床50余年,勤研经典,精于辨证,医术精湛,临证喜用经方治病,验之临床屡屡得心应手。现将其应用中药重剂起沉疴验案一则,介绍如下。1核桃仁配王不留行治疗多
目的:蛋白酶酶解底物位点的专一性对酶解产物的组成与比例都有较大影响,直接影响最终产物的价值。方法: 酶法水解蛋白质的过程存在水解效率低、特异性成分产率低以及后期纯化成
高新技术产业园区,作为产业集群在现实生活中的载体,对区域经济有着十分重要的影响力,同时,现代社会经济高速发展,技术创新和技术扩散对区域经济的发展同样是极其重要。那么,如何保
本文就虫类中药在治疗癌性疼痛方面的应用作一综述。虫类药多为活血化瘀之品,具活血祛瘀,散结通络,搜剔络脉骨缝瘀血,止痛消肿之功,广泛用于治疗癌痛。很多报道证实,虫类药止痛迅速
软件定义网络SDN(Software Defined Networking)最近成为了一个新兴的研究热点。SDN的出现可以带来许多优点。在一个SDN网络环境中,网络的行为是可以被编程的,因此它可以使网络
在高校教育改革的背景下,积极推进高校体育课程改革,是提高体育教学质量、培养大学生体育素养,最终促进大学生素质教育的关键所在。传统的高校体育教学始终以运动技术的教学
消渴病的患病率随着人们生活水平的提高和生活方式的改变而迅速增加,对经济带来沉重的负担,千金文武汤用于佐治太阴人消渴病,可以明显改善患者的临床症状、疗效显著、缩短病