融合领域信息的术语与缩略语机器翻译方法研究

来源 :中国科学技术信息研究所 | 被引量 : 0次 | 上传用户:gksword
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
术语是领域专家用来刻画、描写领域知识的基本信息承载单元,也是科技文献的核心成分,因此术语翻译的准确性将直接影响到科技文献翻译的整体质量。机器翻译系统在翻译篇章级别的科技文献时,通常采用切分句子、逐句翻译再合并翻译的流程。此种翻译策略导致机器翻译系统在句子语境中对其中的术语进行翻译时,通常会遇到两个问题:1)领域不一致:术语具有较强的领域属性,在不同领域和上下文语境中,翻译会有差异,这种在领域发生变化时导致的翻译差异性仅仅依靠机器翻译系统中的语言模型以及对源语言句子的注意力机制难以甄别。2)缩略翻译问题:多数术语由多词组成,在科技文献中经常以缩略语形式出现。同一缩略语通常具有多个全称,对应了多个含义。机器翻译系统翻译缩略语的时候,无论是移译还是还原翻译,翻译系统只能获取到句子的语境信息,当缺乏篇章信息和领域属性时常常出现缩略语的翻译错误。为了改善上述两个问题,本文着重改善机器翻译系统在句子语境中对于术语和缩略语的翻译问题。
  针对领域不一致问题,本文设计了一个基于领域知识库的多义术语翻译模型:该模型使用中图分类号集合作为术语的显性领域信息,利用科技词系统和科技论文等领域知识库构建了领域多义术语词典,为术语翻译提供译文;从领域性和语言模型两个维度对术语译文进行筛选,帮助改善句子的译文。实验表明,该模型可以提高一般术语所在文本的整体翻译质量,BLEU得分提升了0.5个百分点。
  对于缩略翻译问题,本文构建了一个融合篇章信息和领域信息的缩略语翻译模型。该模型引入缩略语的篇章信息和领域信息,篇章信息记录每个缩略语在篇章中出现的位置信息,帮助翻译系统在缩略语首次出现的时候给出全称翻译,以声明该缩略语的具体含义,在之后出现的时候给出简称,使篇章的翻译保持简洁。领域信息记录缩略语的领域属性,保证缩略语的全称翻译和句子所属的领域属性一致,从而改善篇章的翻译。实验表明,根据领域属性对缩略语全称译文筛选的准确率达到了93.8%,BLEU得分提升了0.82个百分点。
  综上所述,本文提出的基于领域知识库的多义术语翻译模型和融合篇章信息和领域信息的缩略语翻译模型可以通过改善句子语境中术语和缩略语的翻译提升整个句子乃至篇章的翻译质量;实证研究也一定程度上说明了方法的有效性。
其他文献
该文采用基因工程技术,构建了两个分别表达绿脓杆菌外毒素PE(Pseudomonas Exotoxin)片段PE和重组毒素IL-Z-PE融合蛋白的表达载体.首先,采用PCR技术,从绿脓杆菌标准株PA103的基因组DNA(genome DNA)中扩增得到PEDNA片段,从质粒PTLIL-2上扩增得到IL-2 cDNA片段(不包含信号肽序列),然后将这两个片段分别插入质粒PUC19的多克隆位点(MCS)
学位
科技评价是科学交流活动的不可或缺部分,其结果不仅关系到个人的直接利益,也间接影响发文期刊、发文机构等间接利益相关者的声誉归属。随着科学交流环境的改变,Altmetrics评价于2010年应运而生。但中文学术成果Altmetrics评价在方法、工具及数据来源等方面还存在诸多缺失,因而识别中文学术成果Altmetrics评价的利益相关者需求并探索其需求达成,不仅有助于创建出新的科技评价体系,而且对于完
学位
入口词是叙词表术语中重要的组成部分,入口词翻译对多语种叙词表的编制与词表间的互操作具有重要的应用价值。论文对比分析各国标准中对入口词、多语种叙词表以及优选词的相关定义,为入口词翻译研究提供理论基础,研究入口词及优选词的具体应用,为研究入口词翻译提供应用基础。总结科技术语、缩略语、特色词汇翻译的研究现状,为入口词翻译提供方法理论支持。论文结合英文叙词表中入口词的特点,从入口词类型、英汉表达方式、同形
学位
随着科学研究活动的日益发展,数字图书馆及其相关来源所包含的学术资源体量越来越庞大,学者特征愈发分散而复杂,学者姓名消歧、学者识别成为亟待解决的问题。为揭示数字图书馆及相关资源中所包含的学者学术属性,实现学术成果的集成与应用,提升数字图书馆资源建设与特色服务,本文基于数字图书馆及相关资源,研究学者标签体系构建方式,为数字图书馆的学术画像构建和学术资源的描述提供理论模型和实践方法。  在理论研究方面,
新媒体平台的本质是社交媒体,依托于网络,对象是广大网民,兼具发布功能,因而在一定程度上与新闻媒体有相似之处。两者都能对社会热点问题做出及时反馈。但微信公众号学术资源较为分散,且质量参差不齐。集中揭示质量较高的学术信息资源,不仅有助于拓展信息资源建设内涵,更可以利用知识组织相关方法和工具对其中富含的知识单元进行识别和计算,为后续开展学术热门话题识别与跟踪服务、个性化学术信息推荐服务等打下基础,以进一
标准体系是一定范围内的标准,根据其内在联系形成的科学有机整体,它是编制标准和修订计划的依据。标准体系包含了宏观标准体系和微观标准体系两种,其中宏观标准体系是指某领域所有标准构建的体系结构,微观标准体系是指某个标准的体系结构。无论是宏观标准体系还是微观标准体系,若要进行标准体系构建,标准工作者就需要从海量资源汇中提炼出大量的概念、关系、结构,需要耗费大量的人力、物力。为解决这一问题,本文提出了一种基
学位
在知识经济时代,高层次科技人才是经济发展的巨大驱动力。吸引集聚高层次科技人才是发挥其科技创新能力的前提保障。因此,研究创新型城市中高层次科技人才的集聚规律和特征以及剖析高层次人才聚集过程中的规模数量、人才类型、学科背景、来源地与创新型城市发展的关系一方面可以更好地激发高层次人才的最大潜力、发挥人才集聚效应,另一方面可以为城市引进人才提供方向参考,提高引才成功概率。  本论文以城市为单元研究高层次科
学位
近年来,随着社会经济的发展和国家对科研活动投入的加强,我国科技整体水平持续提升。但伴随着科技事业的迅速发展,科研活动中的科研不端行为屡有发生,其中主要出现在以高等院校与科研院所为主的科研机构中,严重影响了我国科技事业的发展进程。此时,我国正加快推进世界顶尖科研机构的建设,科研诚信作为创建顶尖科研机构的重要保障,对我国科研机构的发展至关重要。因此,有效衡量科研机构的科研诚信建设化水平,进一步加强科研
学位
以人工检索与判别为主的传统科技查新存在两个不足,第一严重依赖“人力”和专家资源,在科技发展速度不断加快,科技查新业务爆炸性增长的今天,传统方式难以应对海量业务;第二,科技查新并非简单的文献检索问题,科技查新数据有其独特的内部和外部特征。同时人工智能技术取得了长足发展,利用机器学习技术对科技查新流程进行更新和升级,有其必要性和紧迫性。  由于科技查新是以文献检索为基础,对检索结果综合分析并进行新颖性
近年来,随着国内外学术不端行为不断被曝光,科研诚信问题引起了各国广泛关注,我国科研诚信问题涉及面广,社会各界对科研诚信问题的关注度高。国际学术期刊撤稿事件成为媒体焦点,学术期刊作为科研活动的重要一环、科研成果的重要载体,面临着负面问题的挑战,对学术期刊的负面影响的研究成为一个新的课题。本文通过建立学术期刊负面问题指标体系,从负面对期刊进行评价分析,一方面可以反映学术期刊负面问题的分布情况,了解主要
学位