同声传译 解密搜狗同传

来源 :电脑爱好者 | 被引量 : 0次 | 上传用户:tiankoufangfangtu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读

同声传译 并不是一次简单的机器翻译


  说到机器翻译,相信很多朋友都在使用百度、有道等公司提供的在线翻译。我们只要打开在线翻译页面,然后输入需要翻译的语句,选择输出翻译语言即可快速完成翻译。如果再借助语音输入完成需翻译语句的输入,这就是一次简单的同声传译模型(图1)。
  不过在线机器翻译准确度不高、机械性强、语义歧义等一直受人诟病,而要实现同声传译,一是要求“同声”,也就是可以同步识别发言者的语音,实现尽可能短的延迟;二则是“传译”,要求翻译尽可能准确。随着人工智能和深度学习技术的发展,同声传译技术逐渐实现了上述两个要求,比如搜狗的“搜狗同传”技术就可以很好地实现“同声”和“传译”(图2)。


同声传译模型


“搜狗同传”技术展示

同声+传译 搜狗同传背后的秘密


  如上所述,同声传译技术并非简单的语音输入和机器翻译的结合体。同声传译讲究的是“同声”+“传译”,那么搜狗同传这类技术是怎么实现这些要求?
  首先是同声。在王小川演讲的演示中可以看到,在演讲者完成一句话的演讲后,背后的大屏幕几乎在同一时间完成了语音和文字转换。这看似简单的语音到文本的转换,实则是搜狗强大语音识别技术的实际体现。
  要对某个人说出的语句进行实时、高效的识别,搜狗同传先要实现精准的语音断句,也就是对用户说的每一句话进行判断,从而可以准备识别用户真正的表达意图。因为用户的演讲是连贯的,如果无法实现准确的语音断句,那么就很容易出现识别的偏差。举个简单的例子,“小王打败了小李得了冠军”这样一句话,用户在表述中不同的停顿就有完全不同的意思,如“A:小王打败了,小李得了冠军”,“B:小王打败了小李,得了冠军”。


语音断句图解

  为了提高语音断句的能力,搜狗同传算法通过能量检测和基于深度学习模型的方式,对语音信号进行语音和静音的判断,这样可以跳过对静音片段的处理以提升解码效率,同时语音片断可以分割成多句并行识别,大大提高语音识别的效率。借助深度学习模式,搜狗同传就可以准确识别语音断句。比如上述例子,如果前文表达的是小王的实力强大,这样通过上下文关系搜狗同传就会使用A的断句理解用户的输入(图3)。
  在语音识别部分,搜狗同传使用了CLDNN+CTC结合的声学模型和RNNLM语言模型,把经过语音断句后的片段,通过声学模型和语言模型转换成文本。这样借助“语音断句算法+声学模型+RNNLM语言模型”,搜狗同传就可以准确识别用户的演讲,从而实现高效的“同声”输入识别(图4)。


同声输入图解


传译模式图解


同声传译图解

  其次是“传译”。在完成对用户语音的识别后就需要进行同步的翻译。要完成文本的准确翻译,其中的关键是文本断句。搜狗同传的文本断句模块借助内容平滑技术去掉无意义的词语,使句子变得通顺,然后通过规则和模型两种方法进行语句划分并加标点。这里还运用到了双向GRU技术构建编码端的结构。通过Attention机制在源端和目标端文本间进行对齐并生成当前时刻的句子级向量表示,并送至解码端,解码端逐词解码输出翻译结果。这样翻译后的语句通畅,可以很好地让倾听者看明白其他语言发言者要表达的意思(图5)。
  這样通过“同声”(语音短句+识别输入)和“传译”(文本短句+逐词解码),搜狗同传可以让不同语言的演讲者和倾听者都可以看懂彼此的发言,实现全人类之间的顺畅交流(图6)。

同声传译 让我们沟通更便捷


  随着对外开放力度的加强,无论是对外贸易(如和国外合作厂商的协作),还是普通用户的对外交往(如和国外网友的Skype交流),我们都需要和不同语言的用户进行交流,但是由于语言的障碍,使得这些交流变得异常困难。
  不过随着类似搜狗同声传译技术的发展,借着这些技术我们就可以和国外的网友、同事进行无障碍的交流,这将极大地提高我们之间的沟通效率。比如对于国外有分部的公司,通过会议室投影仪的展示,不同国家的员工可以无障碍浏览和理解一种语言制作的PPT。对于希望学习其他语言的网友,借助同声传译远程在线课堂,即使身在中国,也不会由于母语的限制而看不懂国外教师的演示,大大提高了在线学习的效率。
  正是看到同声传译的发展潜力,目前各大IT巨头也在发展各自的同声传译技术。比如谷歌在开发神经网络机器翻译技术,并且在YouTube视频使用即时同声传译字幕(图7),腾讯公司则推出人工智能同声传译解决方案“腾讯同传”,科大讯飞推出智能语音翻译机。随着AI技术的发展,这些同声传译技术必将会给我们和世界的交流带来更多的便利。


谷歌神经网络机器翻译
其他文献
1. 构建菜单样式  打开Articulate Storyline 3并新建一个项目。双击无标题幻灯片,右击设置它的背景色。在窗口右侧的幻灯片层处,右击基础层,选择“重命名”,命名为“主菜单”。利用“插入”选项卡“形状”中的椭圆在幻灯片中画出一个正圆,右击矩形,选择“编辑文本”,输入主菜单内容,设置好字体、字号及颜色等。在这个正圆的四周根据需要的子菜单数目画出相应的直径小于这个正圆的其他正圆,输入
期刊
随机学生名单的生成  开始之前做一些准备工作:先创建一个Excel电子表格(本例为“四年级花名册.xls”(图1),然后为每个班都创建一个工作簿,并以班级来进行重命名,再将每个班所有学生的“学生班级”、“学生姓名”和“学号”等信息,复制到对应的工作簿中备用即可。  接下来生成各不相同的随机自然数。创建一个名为“随机不重名.xls”的电子表格(图2),在C1单元格中输入函数“=RAND()”(不包括
期刊
1. 判断分数达成  以语文学科为例(图1)。假定理科线110分、文科线139分,在L1单元格输入列标题“语达”,在L2单元格输入如下公式并向下填充到最后一行:  = ( $A2 = "理科")*(E2>=110)+($A 2="文科")*(E2>=139)  其中,逻辑运算符“*”表示与运算,要求同时成立;“+”表示或运算,只要求一个成立;“=”判断是否相等;“>=”判断数值大小,下同。公式的作
期刊
添加只读权限  为文件添加“只读权限”,是PPT最常用的保护方法,在保存文件时可以根据需要添加打开文件或修改文件的密码,从而保护好文件。  打开文件后,单击“文件”菜单,选择“保存”后弹出对话框(图1),单击“工具”按钮选择“常规选项”,然后在“修改权限密码”中输入密码,输入后再确认一次即可。这样下次打开文件时,它会提示输入修改文件密码 ,或者选择“只读”打开文件。以只读方式打开文件后,可以看到演
期刊
裁裁剪剪很简单  我们知道Word自带图片裁剪功能,可以是从图片四周往中间裁剪,常用来剪除Word边缘上的网址之类的标记。除了这种矩形裁剪,还可以按照特殊的比例裁剪或者裁剪成特殊形状的图片。  在Word中插入图片后,选中图片切换到“格式”选项卡,单击“裁剪”按钮可以看到多种裁剪方式,选择“裁剪”会看到图片周围出现方框,拖动边框可以调节大小以确定图片的保留部分。此时如果选择“纵横比”可以按照特殊的
期刊
Q:微软的Office是很多用户经常使用的一款办公软件,虽然这款软件的功能异常强大,但是现在想要安装它却非常不容易,比如从旧版本升级到新版本的时候,就有可能遇到新版本无法安装的情况。有没有什么方法可以解决这个问题?  A:Office新版本无法安装往往是因为旧版本没有完全进行卸载造成的,所以可以下载运行“Office Tool Plus”这款工具,通过它的卸载功能就可以对当前系统的版本进行彻底的卸
期刊
在Office与PDF文档中嵌入字体  为避免缺少字体,将字体嵌入文档是目前最常用的方法之一。无论是Word文档还是PPT演示文稿,都可以在保存文档时将字体嵌入其中,这样文档所用的字体就和文档合为一体,在其他电脑上播放也就没有了意外。  在Word 2013(或者2016)中打开文档,单击“文件→选项”弹出对话框,切换到“保存”选项,勾选“将字体嵌入文件”选项(图1),选择“仅嵌入文档中使用的字符
期刊
首先,下载并安装好P P T动画大师,安装完成后动画大师就会出现在PPT“加载项”选项卡中。新建空白幻灯片,设置好背景颜色,利用自选图形画出一段竖直的直线,插入所需要的图片,将图片旋转使它的两个对角都在插入的直线上。接下来,为直线添加动画效果。选中直线,选择“动画”选项卡,选择进入动画中的“基本缩放”,效果选项中选择“切入”,时间为1秒,延迟为0;点击“添加动画”,选择强调动画中的“线条颜色”,效
期刊
Q:常见的文本内容都是横向显示的,但是有的时候为了进行宣传等目的,需要进行文字的纵向输入设置。在Word中如何才能完成类似的操作?  A:如果是局部的文字纵向显示,首先点击“插入”标签中的“文本框”按钮,在弹出的菜单中选择“绘制竖排文本框”命令。接下来利用鼠标在Word的输入框中拖拽一个文本框,在文本框中输入相关的内容,然后进行编辑操作就可以了。  如果是文档全文的纵向显示,点击“布局”标签的“文
期刊
如今在社交媒体中进行斗图已经成了一种时尚,但是斗图需要相当多的表情包才可以,于是就有了自己动手将所需要的文字信息加入到GIF动图里的需求。那么,如何才能快速地自定義表情包中的文字信息呢?  首先安装运行“GIF字幕菌”这款应用(http:// dwz.cn/7WYPNq),在应用界面中可以看到很多知名GIF动画表情包的模板,其中包括“王境泽”、“sorry为所欲为”、“你怎么会有女朋友”等(图1)
期刊