读唇用上AI,单词错误率少一半

来源 :科学大观园 | 被引量 : 0次 | 上传用户:w624624
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  对于数百万失聪者来说,唇读可以提供一个与外界交流的窗口。但这种做法很难,结果也往往不准确。现在,研究人员编写了一种新的人工智能(AI)程序,其性能优于专业的唇读者,且错误率仅为之前最佳算法的一半。
  “这是一项了不起的工作。”未参与该研究的英国伦敦玛丽皇后大学计算机科学家Helen Bear说。
  编写可以阅读唇语的计算机代码令人抓狂。因此,在新研究中,科学家向机器学习“求助”,让计算机从数据中学习。他们为该系统提供了数千小时的视频和抄写本,并让计算机自己解决这个问题。
  该项目始于14万小时的YouTube视频,视频展示了人们在各种情况下进行的交谈。然后,研究人员设计了一个程序,通过每个音素或单词声音的嘴部动作创建几秒钟的剪辑,并带有标注。该程序过滤掉了非英语语音、非讲话者面孔、低质量视频和未直接拍摄的视频。然后,他们裁剪了讲话者嘴巴周围的视频。这样产生了近4000个小时的录像,包括超过12.7万个英文单词。
  此外,该过程部分依赖于神经网络。AI算法包含许多连接在一起的简单计算元素,这些元素以类似人脑的方式学习和处理信息。当研究人员为该系统提供未标记的视频时,这些网络会裁剪嘴巴动作片段。系统中的下一个程序也使用了神经网络,为每个视频帧提供了可能的音素列表及其概率。最后一组算法将可能的音素序列进行整理,并生成了英语单词序列。
  经过训练,研究人员用它之前没有看过的37分钟的视频测试了该系统。他们在发布于arXiv网站的论文中报告说,单词错误率仅为41%。
  这个成绩可能听起来并不怎么样,但之前最好的算法——专注于单个字母而不是音素——的错误率为77%。在同一项研究中,专业唇读者的错误率为93%(尽管在现实生活中他们能参考语境和肢体语言,这有助于读唇)。这項工作由总部位于伦敦的人工智能公司DeepMind完成,但该公司拒绝就这一记录发表评论。
其他文献
最看重志愿者经历    青联刊(以下简称青):奥运期间你身兼的多重身份,歌手、火炬手、志愿者,哪个给你感受最深?  谭晶(以下简称谭):每个感受都挺深的,都是自己的里程碑,但我自己更看重志愿者的经历。在奥运这么大的背景当中,我们百年梦圆,可能火炬手和演唱者这两种身份是有光环的,是大家都知道的。但是做志愿者,却是每个人都希望去参与,同时又是一种默默无闻的奉献。我看到了很多志愿者,他们都是用一种奉献精
采用水蒸汽蒸馏法提取益智果和叶中的挥发油,并经气相色谱-质谱(GC-MS)联用分析测定,其挥发油含量分别为1.14[%]和0.14[%],分别鉴定出127个化合物和125个化合物。通过对益智果和叶
本研究分别使用碱性蛋白酶、中性蛋白酶和木瓜蛋白酶酶解花生蛋白,测定不同酶解时间产物的水解度和抗氧化活性。结果表明,碱性蛋白酶、中性蛋白酶、与木瓜蛋白酶酶解时,随着水解
本文主要通过对糙米发芽的浸泡温度、浸泡时间、发芽温度以及浸泡时间以发芽率为指标进行L9(34)正交实验从而确定糙米发芽的最佳工艺。同时对糙米与发芽糙米的纤维素、总糖、
会议
利用茶叶中含量最丰富、活性最强的表没食子儿茶素没食子酸酯(EGCG)与锌离子配位健结合制成的新化合物EGCG-Zn,开展其对实验性肝损伤的药理作用研究。通过对人肝星状细胞(HSC)
会议
通过对影响饮料的风味和质量的主辅料用量进行正交试验,确定了含肽运动饮料的最佳配方:大豆多肽1.0[%]、蔗糖5.0[%]、蜂蜜3.0[%]、酸味剂2.5[%]、增稠剂0.10[%]、西柚浓缩汁1.0[%]、
为提高建筑生产安全诊断工作效率与系统化程度,给出了基于CBR的建筑生产安全诊断系统流程.在系统分析建筑生产安全隐患影响因素的前提下,设计了面向建筑生产安全诊断的案例表
[目的]建立鸡肉蛋白抗氧化肽(APCP)高效的酶法水解生产工艺并考察其体外抗氧化活性水平。 [方法]从六种常用的水解蛋白酶类中筛选出两种适合水解鸡肉蛋白制备抗氧化肽的酶
会议
阐述了基于群决策和变权赋权法的水闸老化模糊综合评判方法.在研究水闸老化病害类型及影响因素的基础上,给出水闸老化病害评估准则,并构造水闸老化病害评估指标体系,建立了水
会议
1999年 5月 ,按经济状况好、中、差随机抽取了昌乐县尧沟、昌乐、南郝 3处乡镇的 5个村进行了人体肠道寄生虫调查 ,结果如下。按《全国人体寄生虫分布调查实施细则》要求 ,以