论文部分内容阅读
机器可以翻译的语音命令越来越多。但是与人类大脑相比,人工智能计算机可以更好地理解语言信息吗?
人类用了上千年的时间,才学会使用语言,然而计算机只花费了50年的时间就在语音识别和语义解读技术上取得了令人刮目相看的成就。IBM公司开发的超级计算机沃森(Watson)可以“理解”比较复杂的语言含义,是目前世界上最智能的计算机系统之一。它的实力在今年2月份得到了验证——成功挑战美国王牌智力问答节目《危险边缘》中的人类高手,没费多少力气就拿下了冠军。这件事一度引起了轰动,因为对语言的理解过程是人类大脑中最复杂的处理过程。但是,沃森真的理解了人类的语言吗?或者它只是“回想”起了存储在硬盘里的标准化答案。 在语音识别的过程中,人类与计算机的相似性超出大多数人的想象。然而,在解读语言信息时的决定性因素却不相同,因为最复杂的计算机也只能按指令执行计算,但是人类大脑常常是发散的,它可以理解错综复杂的信息。
识别:接收和分析语言
现在,抓取人类语音对于计算机而言难度并不大,比如售价100欧元的Dragon Naturally Speaking语音识别程序就可以非常出色地识别人类语音。语音识别的过程需要将“抓取”到声音中的字词与句子整合在一起,然后通过非常复杂的系统才能识别出语音的内容。为了正确地识别语言,首先要将识别出的语音转换为数字信号。在这个过程中,语言识别系统必须过滤掉所有的背景噪音才可以处理真正的声音。这是非常重要的一步,如果计算机将所有的声音和噪音混合在一起,就无法理解真正需要的那句话了。
其实,人类的大脑也采用相同的识别模式,必须将声波转换成电信号,然后过滤掉噪音。然而,人类大脑对声音的识别过程又远比计算机“聪明”,当我们处在几个人同时讲话的嘈杂环境中时,耳朵会选择性地直接屏蔽掉低于15dB的噪音,使大脑可以顺利追踪到其中一个人的声音,与之顺利交谈(鸡尾酒效应)。但是,计算机在这种环境下无法进行准确的区分,这是因为计算机对每个语音信号都采取同样的处理方式,过滤器在嘈杂的环境中无能为力。
人类和计算机在处理过滤后的语音信号之前,都需要生成有效声音的频谱。对于人类而言,这个处理过程由耳朵完成;对于计算机而言,首先通过“快速傅里叶变换”将信号转换为频谱,然后频谱经过“隐马尔可夫模型”转换为音节,最后组成有意义的词语和句子。计算机需要运用语音数据库、语法模型库和例句库来区别同音字词,例如“神马”和“什么”、“阅读”和“悦读”等,验证这些语音在句子结构中代表的真实含义。
目前最先进的语音识别程序可以识别出大约98%的语言信息,无法识别的部分,用户可以通过人工手动纠正。虽然取得了如此好的成就,但是软件仍然在识别方言和俚语的时候很难保证其准确性。因为与人类相比,计算机只能执行指令,将声音频率化,无法灵活地判断讲话者的情绪信息、动作信息等。
解读:语言在上下文中的含义
语音识别方面的很多问题可以通过更大的语音数据库来解决。但是在理解人类的语言方面,计算机程序还面临着许多基本性的问题。由于计算机没有意识,所以只能依靠更复杂的规则来增强自己的语言理解能力,解读听到的语音含义。
在理解人类语言方面,计算机将希望寄托在语义网络上,语义网络由顶点和边组成,其中,顶点代表的是概念,而边则表示的是这些概念之间的语义关系。它可以回答诸如“今天北京朝阳区的气温是多少?”这样的问题。在这个例子中,词语“今天”对应着时间,“北京朝阳区”对应着地点,顶点之间的关联(边)就是“气温”。这就是为什么有了边对顶点的限制,计算机就可能根据上下文来识别屋子里的“Windows(窗户)”与微软著名的操作系统“Windows(软件)”的不同,识别可以吃的水果“Apple”与美国苹果公司“Apple”的区别。
可以肯定的是,在有标准答案的问题上,计算机的能力远比人类更强大,这一点已经被新的《危险游戏》王者——超级计算机沃森证明,沃森可以访问由百科全书和词典等组成的大约100GB的纯文本资料库。为了增加答案的准确性,沃森同时采用几百种算法进行运算。在最后的分析过程中,沃森显示的答案都是经过一些高级人工智能的算法,将所听到的词语(顶点)与词语之间的关联(边),通过逻辑命令计算出来的。
此外,沃森还具有自学习的能力,它可以存储新的知识,并且与已经存在的概念关联起来形成更强大的语义网数据库。我们可以将沃森视为高智商的大师吗?显然不能,因为沃森只能做到调用概念,并找出答案之间的关系而已,换句话说它并不能理解任何一句模棱两可的话。
结论
人类可以做到同时与多人交流,根据情景理解对方所讲语音的含义,机器则很难做到。相比而言,人类大脑的神经网络非常复杂,关联信息、最新事件、环境氛围都会被纳入考虑范围,同时只会提取这些信息中的有用因素,不像计算机一样只能盲目地保留所有细节。目前,计算机的唯一优势就是它的数据库,原则上数据库会收集、分类,并且随时调用所有搜集到的语音信息,而人类的大脑中只保留了一小部分有用信息,大部分信息都被丢弃。综合来看,计算机的语音识别和语义解读能力与人类相比,还有很大的一段差距,但是沃森的出现,让我们相信人类与计算机交流的梦想并不会太遥远。
人类用了上千年的时间,才学会使用语言,然而计算机只花费了50年的时间就在语音识别和语义解读技术上取得了令人刮目相看的成就。IBM公司开发的超级计算机沃森(Watson)可以“理解”比较复杂的语言含义,是目前世界上最智能的计算机系统之一。它的实力在今年2月份得到了验证——成功挑战美国王牌智力问答节目《危险边缘》中的人类高手,没费多少力气就拿下了冠军。这件事一度引起了轰动,因为对语言的理解过程是人类大脑中最复杂的处理过程。但是,沃森真的理解了人类的语言吗?或者它只是“回想”起了存储在硬盘里的标准化答案。 在语音识别的过程中,人类与计算机的相似性超出大多数人的想象。然而,在解读语言信息时的决定性因素却不相同,因为最复杂的计算机也只能按指令执行计算,但是人类大脑常常是发散的,它可以理解错综复杂的信息。
识别:接收和分析语言
现在,抓取人类语音对于计算机而言难度并不大,比如售价100欧元的Dragon Naturally Speaking语音识别程序就可以非常出色地识别人类语音。语音识别的过程需要将“抓取”到声音中的字词与句子整合在一起,然后通过非常复杂的系统才能识别出语音的内容。为了正确地识别语言,首先要将识别出的语音转换为数字信号。在这个过程中,语言识别系统必须过滤掉所有的背景噪音才可以处理真正的声音。这是非常重要的一步,如果计算机将所有的声音和噪音混合在一起,就无法理解真正需要的那句话了。
其实,人类的大脑也采用相同的识别模式,必须将声波转换成电信号,然后过滤掉噪音。然而,人类大脑对声音的识别过程又远比计算机“聪明”,当我们处在几个人同时讲话的嘈杂环境中时,耳朵会选择性地直接屏蔽掉低于15dB的噪音,使大脑可以顺利追踪到其中一个人的声音,与之顺利交谈(鸡尾酒效应)。但是,计算机在这种环境下无法进行准确的区分,这是因为计算机对每个语音信号都采取同样的处理方式,过滤器在嘈杂的环境中无能为力。
人类和计算机在处理过滤后的语音信号之前,都需要生成有效声音的频谱。对于人类而言,这个处理过程由耳朵完成;对于计算机而言,首先通过“快速傅里叶变换”将信号转换为频谱,然后频谱经过“隐马尔可夫模型”转换为音节,最后组成有意义的词语和句子。计算机需要运用语音数据库、语法模型库和例句库来区别同音字词,例如“神马”和“什么”、“阅读”和“悦读”等,验证这些语音在句子结构中代表的真实含义。
目前最先进的语音识别程序可以识别出大约98%的语言信息,无法识别的部分,用户可以通过人工手动纠正。虽然取得了如此好的成就,但是软件仍然在识别方言和俚语的时候很难保证其准确性。因为与人类相比,计算机只能执行指令,将声音频率化,无法灵活地判断讲话者的情绪信息、动作信息等。
解读:语言在上下文中的含义
语音识别方面的很多问题可以通过更大的语音数据库来解决。但是在理解人类的语言方面,计算机程序还面临着许多基本性的问题。由于计算机没有意识,所以只能依靠更复杂的规则来增强自己的语言理解能力,解读听到的语音含义。
在理解人类语言方面,计算机将希望寄托在语义网络上,语义网络由顶点和边组成,其中,顶点代表的是概念,而边则表示的是这些概念之间的语义关系。它可以回答诸如“今天北京朝阳区的气温是多少?”这样的问题。在这个例子中,词语“今天”对应着时间,“北京朝阳区”对应着地点,顶点之间的关联(边)就是“气温”。这就是为什么有了边对顶点的限制,计算机就可能根据上下文来识别屋子里的“Windows(窗户)”与微软著名的操作系统“Windows(软件)”的不同,识别可以吃的水果“Apple”与美国苹果公司“Apple”的区别。
可以肯定的是,在有标准答案的问题上,计算机的能力远比人类更强大,这一点已经被新的《危险游戏》王者——超级计算机沃森证明,沃森可以访问由百科全书和词典等组成的大约100GB的纯文本资料库。为了增加答案的准确性,沃森同时采用几百种算法进行运算。在最后的分析过程中,沃森显示的答案都是经过一些高级人工智能的算法,将所听到的词语(顶点)与词语之间的关联(边),通过逻辑命令计算出来的。
此外,沃森还具有自学习的能力,它可以存储新的知识,并且与已经存在的概念关联起来形成更强大的语义网数据库。我们可以将沃森视为高智商的大师吗?显然不能,因为沃森只能做到调用概念,并找出答案之间的关系而已,换句话说它并不能理解任何一句模棱两可的话。
结论
人类可以做到同时与多人交流,根据情景理解对方所讲语音的含义,机器则很难做到。相比而言,人类大脑的神经网络非常复杂,关联信息、最新事件、环境氛围都会被纳入考虑范围,同时只会提取这些信息中的有用因素,不像计算机一样只能盲目地保留所有细节。目前,计算机的唯一优势就是它的数据库,原则上数据库会收集、分类,并且随时调用所有搜集到的语音信息,而人类的大脑中只保留了一小部分有用信息,大部分信息都被丢弃。综合来看,计算机的语音识别和语义解读能力与人类相比,还有很大的一段差距,但是沃森的出现,让我们相信人类与计算机交流的梦想并不会太遥远。