【摘 要】
:
英文中单词有大小写之分,如果使用不规范,会降低语句的可读性,甚至造成语义上的根本变化。当前的机器翻译处理流程一般先翻译生成小写的英文译文,再采用独立的大小写恢复工具
【机 构】
:
北京工业大学北京未来网络科技高精尖创新中心,中国科学院计算技术研究所,中国科学院大学,北京搜狗科技发展有限公司
论文部分内容阅读
英文中单词有大小写之分,如果使用不规范,会降低语句的可读性,甚至造成语义上的根本变化。当前的机器翻译处理流程一般先翻译生成小写的英文译文,再采用独立的大小写恢复工具进行还原,这种方式步骤繁琐且没有考虑上下文信息。另一种方式是抽取包含大小写的词表,但这种方式扩大了词表,增加了模型参数。该文提出了一种在神经机器翻译训练中联合预测英语单词及其大小写属性的方法,在同一个解码器输出层分别预测单词及其大小写属性,预测大小写时充分考虑源端语料和目标端语料上下文信息。该方法不仅减小了词表的大小和模型参数,译文的质量也得到
其他文献
面向文本数据建模时,交叉验证方法是特征选择及模型比较任务中的常用方法。许多研究表明,文本数据模型的性能估计对交叉验证的数据切分方式较为敏感,不合理的切分方式可能会
Kahman给出了相邻的矩形域上的Bezier曲面及相邻的三角域上Bezier曲面之间GC2连续条件.利用相邻矩形域上的Bezier曲面之间的GC2连续条件及Bezier曲面的高阶编导数,得到了相邻
用RV20旋转粘度计和地层条件毛细管流变仪测量了不同油田脱气稠油的流变性,研究了温度对稠油流变性的影响,建立了对应于不同温度的流变模式和适切的本构方程,指出对于稠油存在某一临
汉盲转换是指将汉字文本自动转换为对应的盲文文本,其在盲文出版、盲人教育等领域具有重要应用价值,但当前已有系统性能难以满足实用需求。该文提出一种基于汉盲对照语料库和
通过对影响音视频产品安全测试的主要条件分析,帮助检测人员更好地理解这些主要测试条件,并在音视频产品的安全检测中,能对这些条件进行最不利的组合,确保产品达到标准的安全
2019年5月3日至5日,第十六届全国自然语言处理青年学者研讨会(YSSNLP 2019)在海南琼海顺利召开。本次研讨会由中国中文信息学会主办,海南大学承办,近200名代表参会。
套管磨损在深井,超深井,大位移井和水平井的钻井和修井期间是一个不容忽视的问题,引起套管柱磨损的因素很多,本文着重概述了钻杆柱的旋转及起下钻,井壁狗腿严重度和泥浆成分等几种
文章主要介绍了索威制造执行系统的特色创新、网络结构、系统配置、应用系统体系结构,详细介绍索威制造执行系统的主要功能:
针对目前国内编辑部现状,构建了一种基于Windows95/98的简易、实用的编辑部局域对等式(Peer to Peer)网络。论述了这种网络简单、经济、实用的设计思想,对编辑部、办公室人员如
现有的词语语义相似性计算主要包括基于向量模型以及基于词汇分类体系两类方法,但这两类方法都存在自身的缺点。向量模型所依赖的文本共现中的上下文信息不等同于真正意义上