基于中英文单语术语库的双语术语对齐方法

来源 :中国科技术语 | 被引量 : 0次 | 上传用户:w313829237
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
双语术语对齐库是自然语言处理领域的重要资源,对于跨语言信息检索、机器翻译等多语言应用具有重要意义.双语术语对通常是通过人工翻译或从双语平行语料中自动提取获得的.然而,人工翻译需要一定的专业知识且耗时耗力,而特定领域的双语平行语料也很难具有较大规模.但是同一领域中各种语言的单语术语库却较易获得.为此,提出一种基于两种不同语言的单语术语库自动实现术语对齐,以构建双语术语对照表的方法.该方法首先利用多个在线机器翻译引擎通过投票机制生成目标端“伪”术语,然后利用目标端“伪”术语从目标端术语库中检索得到目标端术语候选集合,最后采用基于mBERT的语义匹配算法对目标端候选集合进行重排序,从而获得最终的双语术语对.计算机科学、土木工程和医学三个领域的中英文双语术语对齐实验结果表明,该方法能够提高双语术语抽取的准确率.
其他文献
在中国制造2025等一系列的国家战略提出以来,新一轮的科技革命与产业革新开始支撑着各项服务产业进行创新动力的不断提升,新工科建设也同步引领着高校对新时期工程管理人才培养的方向,在建设内涵方面不断加以深化.而工程管理专业属于新兴工程技术与管理交叉的复合性学科,该专业包括经济学、管理学、土木工程、信息工程等相关技术的基础知识,操控着现代管理科学的发展理论与方法,并将培养科学顶尖的复合型高级管理人才为终极目标.目前,土木工程专业应用型人才不足,缺少大量的高科技人才,伴随新工科的提出,21世纪的各种高新技术成为主
为适应军队院校建设与发展需求,必须把培养青年教员学科骨干作为院校发展的重点工程来抓.通过提前谋划,树立新时期人才建设新观念,探索军校青年教员学科骨干的培养策略,形成人才建设新机制,建立健全激励政策,增强用人的活力,有力促进军校青年教员学科骨干的培养、选拔和任用,推动院校早日实现“双一流”建设目标.
目的:深入了解国内对医院图书馆的研究情况,进行文献计量学分析.方法:选用CNKI数据库对20年间关于医院图书馆的研究文献,从发文量的年度趋势、主要机构发文量趋势、发表期刊分布和主要主题分布四个方面进行可视化分析.结果:医院图书馆的研究文献以信息化、网络化为主,紧扣数字化和医疗改革的时代主题,但是存在发文量少,发文机构单一和发文期刊影响力不足的现状;医院图书馆研究领域出现次数最多的主题词为医院图书馆、图书馆、信息服务、医院和服务,总关联强度最强的医院图书馆、图书馆、信息服务、医院和网络环境.结论:我国医院图
焊接离线编程与仿真模拟功能可以通过通用仿真软件或与机器人配套专用软件来实现.其原理就是在软件环境将机器人、焊枪系统、焊接变位机、焊接夹具、输送线等三维数模按照实际产线layout进行布置,通过软件相关指令处理最后生成机器人本体可识别的代码.从而驱动机器人按照规划的姿态和路径进行动作,并能生成三维仿真动画.以汽车焊装为例,采用焊接仿真工具软件既可以获得离线程序,又可以准确的评估焊装生产线的节拍、焊装夹具、焊枪结构的合理性.为后期焊装生产线工艺方案的改善和优化提供分析数据,从而可以避免因工艺方案错误而造成损失
目前,随着我国电力企业对节能环保越来越重视,以及电网对电厂调峰能力更高的要求,燃气轮机—蒸汽机联合循环电厂在广东电网中的比例不断增加,通过对燃机发电机和汽机发电机励磁系统调差系数进行优化整定,重点研究同套机组间无功分配、机组阻尼,并分析对电力系统稳定器(PSS)的影响,为燃气轮机发电机组的调差系数优化整定工作具有重要的意义.
生物脱氮处理是目前主流的水处理工艺,随着依托于短程硝化的新工艺的发展,维持低温条件下短程硝化的稳定运行变得十分重要.本文介绍了工艺调控中不同参数的影响,阐述了目前研究中遇到的问题并展望该方向发展前景.
文章简要介绍了自动术语提取任务的定义、主要方法和评价指标.针对传统的自动术语提取方法,以互信息、t值、tf-idf、C/NC-value为例介绍了单元度和术语度的概念;针对自动术语标注方法,主要介绍了基于序列标注的建模思想.从提取效果来看,现有自动术语提取技术距离期望仍有差距,文章也尝试给出了一些值得探索的方向.
文章以土耳其语军事领域术语语言特征研究为基础,提出一种规则与统计相结合的术语抽取方法,先后通过关键词、停止词、形态分析序列模式、点互信息、左右信息熵和临接词缀等特征对单语文本中的候选项进行筛选,在W-data和N-data大小两组单语文本中进行实验,结果表明该方法能够有效地从实验数据中抽取土耳其语军事术语.
自然语言处理技术的飞速发展,使得术语抽取软件在翻译、教育、语言学等领域成为不可或缺的资源,软件的种类也越来越多,可为用户提供不同的功能.然而,如何选择合适的软件成了亟待解决的问题.此研究参考ISO/IEC 25010:2011和GB/T 2500.10—2016,从术语抽取软件的特性出发,选取功能适用性、兼容性、性能效率、易用性、信息安全性五个方面,探讨了术语抽取软件的动态化测评框架,并提出针对性的框架应用建议与应用案例,以期为用户选择恰当的术语抽取软件提供科学依据.
网络非正规语言表达(Network Informal Language Expression,NILE)具有的创新性强、超常规化、表达方式口语化等特点,为许多自然语言处理任务带来了挑战.在使用网络语言进行交流的过程中,部分网络非正规语言表达逐渐标准化和规范化,形成网络非正规语言表达术语.通过对46万余条Twitter数据的收集、处理和分析,英语网络非正规语言表达可以在音、形、义层面划分为13类,并对其特征进行分析和总结.结合统计方法和规则方法的优点,设计了统计和规则融合的英语网络非正规语言表达自动识别方法