论文部分内容阅读
如果你在开车或是运动中,想用手机打个电话、发个短信,对于现在移动终端的小体积来说,无论物理键盘或是虚拟键盘的手动操作都显得越发困难。智能语音识别技术在移动设备上的出现,解放了人们的双手,通过语音命令操作设备和设备上的应用,似乎让许多问题都迎刃而解。你还能通过语音询问天气、介绍餐厅、设置语音闹钟等,在你无聊的时候甚至可以和“她”聊聊天、逗逗乐。渐渐地,无节操和有问必答成为了他们的代言词。这些虚拟朋友们正在悄悄地改变着我们的生活,似乎朝着更方便和快捷的方向发展,但是现实情况并非如此。你经常能从语音应用的反馈中得到令人崩溃的信息和匪夷所思的答案。此外,人工合成的音效也给体验带来些许的不畅快。对于这些虚拟朋友来说,更好地明白主人的意图似乎更为重要。在人们快节奏的生活中,需要的答案不是多而全,而是少而精,我们想要的只是一个够准确、够快捷的解答。
Sir依旧不得人心
语音交互应用早已成为软件公司、互联网终端设备厂商的必争之地,在多年前,IBM的语音识别软件在PC上就有较好的识别率。这些年,让人印象最为深刻的当数苹果公司的Siri。其主要基于Wolfram Alpha的数据,它允许用户通过说话或者手动输入的方式进行提问互动。支撑Siri语音识别技术的Nuance公司,其CTO弗拉德(Vlad Sejnoha),曾如是说:“语音和自然语义理解突然成为一门前沿科技,而我们正站在这个过渡点上。我认为语音识别将真正颠覆目前的计算机交互接口。”Siri的出现似乎给我们日常生活一个偷懒的机会,但事实似乎并不像我们预计的方向发展,中文版Siri时常给我们帮倒忙。外来的Siri并不了解中文的博大精深,经常水土不服。使用时,你的语速要适中,发音要标准。对于“去哪吃?”和“怎么去?”这样中国人最关注的餐饮和交通等生活问题,Siri均不能解决,在地图兴趣点的查找上Siri依旧鸡肋。至于你想问“为什么?”和“是什么?”这样问题,也会毫无结果。Siri好用与否的答案关键在于网络应用,也就是说,如果网络中没有能为Siri提供全面、权威、实时、有良好API应用接口的服务类网站的话,Siri将被限制住手脚。
Google Now寻求解决之道
当然,我们看到谷歌在这方面已有所布局。Google Now是谷歌在I/O开发者大会上随Android4.1系统同时推出的一款重量级应用,与Siri相比,Google Now提供的信息相关性更高,几乎可以瞬间得到答案,而Siri通常会有数秒的延时。此外,有些问题Google Now能够直接给出答案,Siri需要在网上搜索后才能得到解答。苹果的Siri被认为是一种进化的搜索,它能够更智能地回答用户的问题而不是给出一堆相关链接。但是Google Now更是对搜索的颠覆,也更有可能成为人们未来的“私人电子助手”。 依托谷歌的强大搜索背景,Google Now优于Siri的一个先天优势在于与谷歌搜索功能的结合,用户搜索的关键词被记录下来,Google Now智能化读取关键词后,为用户提供相关的语音服务。除了处理速度快之外,Google Now针对用户需求“主动”为用户发出提醒,而不仅仅是回答用户的提问,产品性能更为人性化。
那么,是什么带来体验的差异?Google Now是谷歌搜索应用的一个功能,针对客户端对每一个询问进行语音识别,而苹果Siri则是在服务器端处理这些请求。这意味着,当你按下Google Now的麦克风按钮并开始讲话,软件处理过程发生在设备自身。而使用Siri时,你的设备将问话信息传给远端服务器,由它进行处理然后再把答案发回到设备上。这也就不难理解,为什么使用Siri时必须处于网络环境。当你对问题进行补充时,Siri会继续等待直到它认为你已经说完后,才开始调整输出答案。Siri的这一做法优势在于,能使服务器不断地学习,这样使用得越多,系统整体就会变得越智能。
但问题是,根据提问的长短以及发音的清晰程度不同,在得到答案之前可能会有许多交互信息。并且,在实际使用中,导致Siri的响应有明显的延时,相比之下谷歌应用几乎是即时识别。所有答案可归结于所谓“关注点分离”的编程风格。简而言之,让语音识别处理成为一个硬件设备的功能,使得应用程序的这方面功能与实际的数据库查询异步进行。Siri要来回多次收发数据,而谷歌在客户端上解析提问的语音表述,然后只向服务器发出一次请求。
与PC相比,移动设备的其中一个显著特性就是用户与设备间的数据交互量。谷歌语音搜索为此采取的优化方式使其成为更快捷的选择。虽然是这点区别,可能已变得比HTML 5网络应用与原生应用之间的区别更为重要。
三星后起直追
与此同时,三星也推出了语音应用S Voice。这款产品除朗读语音不如Siri自然外,还会不时给用户提供一些让人崩溃的答案。例如Siri语音控制系统对于一些类似“我满脑子都是北京菜”的含糊陈述都能做出正确的回答,但是三星S Voice除了建议用户搜索网页外,基本上不能给出任何有效信息。就算用户直白地提问三星S Voice语音助理“哪里有好吃的北京餐馆?”它也会答非所问地回答:“Text Katie今晚有空跟你吃饭”。不过话说回来,虽然三星S Voice没有完善答案,但是它至少不会告诉你诸如人生意义这样莫名其妙的答案。
讯飞抢占本土市场
虽然语音识别技术与移动互联网的结合被全球各大互联网巨头视为下一波的大机遇,语音助手类产品将成为移动互联网的重要入口。但苹果、谷歌等巨头都相继推出的Siri、GoogleNow等产品在国内却因为种种原因无法大规模发展用户。这给国内企业在移动互联网语音方面的布局机会。其中,比较知名的一款应用是虫洞。虫洞最初的产品理念是采用用户间互助和实时抓取这两种方式满足用户的即时需求,算是移动问答领域的原创应用,借助多年积累的用户数据迅速推出虫洞语音助手——问不倒。“问不倒”同样可以用语音指令打开关闭应用汇程序、拨打电话、发送短信等。同时,发挥本土语音应用的另一大优势,用各种方言与用户对话,粤语、川话、东北味、台湾腔,增加了使用的趣味性。另外,智能360语音助手同样表现不俗,语音聊天解闷、发送短信、打电话、设置备忘录、闹钟提醒、查询天气、播放想要的音乐和视频,还能下载应用,管理应用。其实,虫洞问不倒和智能360都采用科大讯飞提供的语音识别核心技术。 讯飞是一家专业从事智能语言及语言技术研究的公司。早在2010年,科大讯飞就推出语音云开放平台,降低开发者们的进入门槛,让开发者们能开发出人性化的交互应用,共同培养用户的使用习惯。经过将近3年的发展,语音云已经有几千万级的用户,每天的活跃用户百万以上,给开发者带来了大量的用户和流量。科大讯飞凭借强大的自主创新能力以及多年的积累,在中文智能语音识别方面,对于中国地方方言的支持要优于iPhone的Siri和Google Voice,具有很强的本地化优势。
本土生力军毫不示弱
搜狗语音助手的正式发布,让安卓用户能体验到如同Siri一样智能化的语音互动应用。由于搜狗语音助手在中文语义分析及本地化上更胜Siri,安卓用户在使用搜狗语音助手时也更加得心应手。其中,语音搜索全国服务电话精准查询,地图定位旅游出行必备贴身导游功能表现出色。除了丰富的功能,搜狗语音助手还能给你讲笑话,陪你聊聊天,幽默,风趣。此外,通过搜狗语音助手用户还可以搜索新闻信息、股票信息、电视节目列表、彩票信息、美食菜谱等,涉及工作生活的方方面面。
伴随着问不倒、智能360、搜狗等都相继推出语音应用产品,而百度和盛大也在积极筹备。国内各大互联网企业均有对语音应用市场分一杯羹之势。从盛大拆分出来的掌门科技也推出自己的语音助手,这将是备受业界关注的掌门科技成立后推出的第一个产品。掌门科技语音助手开发团队是先前盛大创新院语音团队的核心力量,此团队在语音领域已有3年多的技术积累,拥有语音识别、语音合成、语义理解、声纹认证等全面的语音核心技术,且各个方面上的技术水准都已经达到国内一流水准。其中,语音识别和语音合成技术平台已对外开放1年多,为移动互联网应用开发者提供语音服务请求达亿次以上,服务的用户已过千万,服务的移动应用已达百款之多。例如,搜狗、智能360、墨迹天气等都在接入使用。这也许是掌门科技有信心在语音助手这场大战中一搏的底气所在。此语音助手命名为“百灵语音助手”,除了提供一些基础的语音服务,如常规的通过语音进行搜索、信息查询、手机设置、应用管理、以及为用户管理日程生等,还会借助盛大游戏、视频、文学、音乐等内容资源的优势推出特色功能。
虚拟朋友何时能够走入生活?
虽然已有许多知名企业涉足移动智能语音助理服务领域,但是不得不承认语音应用产品还处在市场探索阶段,如何提到用户对语音交互使用的依赖感?怎样更好地用语音交互技术理解用户的意图?如何提供更精准有效的语音搜索和查询结果,未来又将对哪些资源整合,扩展更多实用的功能?如何才能使人工的语音更加人性化,获得更多的“人说话的感觉”,提高使用的舒适感?
其实,人类的声音会唤起想象,就像未曾谋面的电台主持人或那些只在电话中联系过的人一样,通过声音,人们会自然想象发出这一声音的人地形象。虽然在自动应答系统中,现代的人工语音早已远离那种尖细或是断续且不带口音的声音,但对声音十分挑剔的人耳还是能听出细微的差别。当语速和语言片段组成句子时,话语中最细微的语音间隙也会立即暴露。最新的技术发展方向是把语音转换成数字,并利用计算方法寻找人工语音中不完善的地方。他们的目标是开发一个人类语言自我学习的数学模型,它可以使得任意对象被赋予任意的声音,而且听起来没有人工合成的感觉。
语音识别技术在移动应用上发展必将因移动智能设备手动输入的弊端超越PC,并将大有作为。未来我们将会看到更多形式、体验更棒的基于语音识别技术的移动应用,这些虚拟朋友将从另一个全新的角度改变我们生活的面貌。(编辑:刘思博)
Sir依旧不得人心
语音交互应用早已成为软件公司、互联网终端设备厂商的必争之地,在多年前,IBM的语音识别软件在PC上就有较好的识别率。这些年,让人印象最为深刻的当数苹果公司的Siri。其主要基于Wolfram Alpha的数据,它允许用户通过说话或者手动输入的方式进行提问互动。支撑Siri语音识别技术的Nuance公司,其CTO弗拉德(Vlad Sejnoha),曾如是说:“语音和自然语义理解突然成为一门前沿科技,而我们正站在这个过渡点上。我认为语音识别将真正颠覆目前的计算机交互接口。”Siri的出现似乎给我们日常生活一个偷懒的机会,但事实似乎并不像我们预计的方向发展,中文版Siri时常给我们帮倒忙。外来的Siri并不了解中文的博大精深,经常水土不服。使用时,你的语速要适中,发音要标准。对于“去哪吃?”和“怎么去?”这样中国人最关注的餐饮和交通等生活问题,Siri均不能解决,在地图兴趣点的查找上Siri依旧鸡肋。至于你想问“为什么?”和“是什么?”这样问题,也会毫无结果。Siri好用与否的答案关键在于网络应用,也就是说,如果网络中没有能为Siri提供全面、权威、实时、有良好API应用接口的服务类网站的话,Siri将被限制住手脚。
Google Now寻求解决之道
当然,我们看到谷歌在这方面已有所布局。Google Now是谷歌在I/O开发者大会上随Android4.1系统同时推出的一款重量级应用,与Siri相比,Google Now提供的信息相关性更高,几乎可以瞬间得到答案,而Siri通常会有数秒的延时。此外,有些问题Google Now能够直接给出答案,Siri需要在网上搜索后才能得到解答。苹果的Siri被认为是一种进化的搜索,它能够更智能地回答用户的问题而不是给出一堆相关链接。但是Google Now更是对搜索的颠覆,也更有可能成为人们未来的“私人电子助手”。 依托谷歌的强大搜索背景,Google Now优于Siri的一个先天优势在于与谷歌搜索功能的结合,用户搜索的关键词被记录下来,Google Now智能化读取关键词后,为用户提供相关的语音服务。除了处理速度快之外,Google Now针对用户需求“主动”为用户发出提醒,而不仅仅是回答用户的提问,产品性能更为人性化。
那么,是什么带来体验的差异?Google Now是谷歌搜索应用的一个功能,针对客户端对每一个询问进行语音识别,而苹果Siri则是在服务器端处理这些请求。这意味着,当你按下Google Now的麦克风按钮并开始讲话,软件处理过程发生在设备自身。而使用Siri时,你的设备将问话信息传给远端服务器,由它进行处理然后再把答案发回到设备上。这也就不难理解,为什么使用Siri时必须处于网络环境。当你对问题进行补充时,Siri会继续等待直到它认为你已经说完后,才开始调整输出答案。Siri的这一做法优势在于,能使服务器不断地学习,这样使用得越多,系统整体就会变得越智能。
但问题是,根据提问的长短以及发音的清晰程度不同,在得到答案之前可能会有许多交互信息。并且,在实际使用中,导致Siri的响应有明显的延时,相比之下谷歌应用几乎是即时识别。所有答案可归结于所谓“关注点分离”的编程风格。简而言之,让语音识别处理成为一个硬件设备的功能,使得应用程序的这方面功能与实际的数据库查询异步进行。Siri要来回多次收发数据,而谷歌在客户端上解析提问的语音表述,然后只向服务器发出一次请求。
与PC相比,移动设备的其中一个显著特性就是用户与设备间的数据交互量。谷歌语音搜索为此采取的优化方式使其成为更快捷的选择。虽然是这点区别,可能已变得比HTML 5网络应用与原生应用之间的区别更为重要。
三星后起直追
与此同时,三星也推出了语音应用S Voice。这款产品除朗读语音不如Siri自然外,还会不时给用户提供一些让人崩溃的答案。例如Siri语音控制系统对于一些类似“我满脑子都是北京菜”的含糊陈述都能做出正确的回答,但是三星S Voice除了建议用户搜索网页外,基本上不能给出任何有效信息。就算用户直白地提问三星S Voice语音助理“哪里有好吃的北京餐馆?”它也会答非所问地回答:“Text Katie今晚有空跟你吃饭”。不过话说回来,虽然三星S Voice没有完善答案,但是它至少不会告诉你诸如人生意义这样莫名其妙的答案。
讯飞抢占本土市场
虽然语音识别技术与移动互联网的结合被全球各大互联网巨头视为下一波的大机遇,语音助手类产品将成为移动互联网的重要入口。但苹果、谷歌等巨头都相继推出的Siri、GoogleNow等产品在国内却因为种种原因无法大规模发展用户。这给国内企业在移动互联网语音方面的布局机会。其中,比较知名的一款应用是虫洞。虫洞最初的产品理念是采用用户间互助和实时抓取这两种方式满足用户的即时需求,算是移动问答领域的原创应用,借助多年积累的用户数据迅速推出虫洞语音助手——问不倒。“问不倒”同样可以用语音指令打开关闭应用汇程序、拨打电话、发送短信等。同时,发挥本土语音应用的另一大优势,用各种方言与用户对话,粤语、川话、东北味、台湾腔,增加了使用的趣味性。另外,智能360语音助手同样表现不俗,语音聊天解闷、发送短信、打电话、设置备忘录、闹钟提醒、查询天气、播放想要的音乐和视频,还能下载应用,管理应用。其实,虫洞问不倒和智能360都采用科大讯飞提供的语音识别核心技术。 讯飞是一家专业从事智能语言及语言技术研究的公司。早在2010年,科大讯飞就推出语音云开放平台,降低开发者们的进入门槛,让开发者们能开发出人性化的交互应用,共同培养用户的使用习惯。经过将近3年的发展,语音云已经有几千万级的用户,每天的活跃用户百万以上,给开发者带来了大量的用户和流量。科大讯飞凭借强大的自主创新能力以及多年的积累,在中文智能语音识别方面,对于中国地方方言的支持要优于iPhone的Siri和Google Voice,具有很强的本地化优势。
本土生力军毫不示弱
搜狗语音助手的正式发布,让安卓用户能体验到如同Siri一样智能化的语音互动应用。由于搜狗语音助手在中文语义分析及本地化上更胜Siri,安卓用户在使用搜狗语音助手时也更加得心应手。其中,语音搜索全国服务电话精准查询,地图定位旅游出行必备贴身导游功能表现出色。除了丰富的功能,搜狗语音助手还能给你讲笑话,陪你聊聊天,幽默,风趣。此外,通过搜狗语音助手用户还可以搜索新闻信息、股票信息、电视节目列表、彩票信息、美食菜谱等,涉及工作生活的方方面面。
伴随着问不倒、智能360、搜狗等都相继推出语音应用产品,而百度和盛大也在积极筹备。国内各大互联网企业均有对语音应用市场分一杯羹之势。从盛大拆分出来的掌门科技也推出自己的语音助手,这将是备受业界关注的掌门科技成立后推出的第一个产品。掌门科技语音助手开发团队是先前盛大创新院语音团队的核心力量,此团队在语音领域已有3年多的技术积累,拥有语音识别、语音合成、语义理解、声纹认证等全面的语音核心技术,且各个方面上的技术水准都已经达到国内一流水准。其中,语音识别和语音合成技术平台已对外开放1年多,为移动互联网应用开发者提供语音服务请求达亿次以上,服务的用户已过千万,服务的移动应用已达百款之多。例如,搜狗、智能360、墨迹天气等都在接入使用。这也许是掌门科技有信心在语音助手这场大战中一搏的底气所在。此语音助手命名为“百灵语音助手”,除了提供一些基础的语音服务,如常规的通过语音进行搜索、信息查询、手机设置、应用管理、以及为用户管理日程生等,还会借助盛大游戏、视频、文学、音乐等内容资源的优势推出特色功能。
虚拟朋友何时能够走入生活?
虽然已有许多知名企业涉足移动智能语音助理服务领域,但是不得不承认语音应用产品还处在市场探索阶段,如何提到用户对语音交互使用的依赖感?怎样更好地用语音交互技术理解用户的意图?如何提供更精准有效的语音搜索和查询结果,未来又将对哪些资源整合,扩展更多实用的功能?如何才能使人工的语音更加人性化,获得更多的“人说话的感觉”,提高使用的舒适感?
其实,人类的声音会唤起想象,就像未曾谋面的电台主持人或那些只在电话中联系过的人一样,通过声音,人们会自然想象发出这一声音的人地形象。虽然在自动应答系统中,现代的人工语音早已远离那种尖细或是断续且不带口音的声音,但对声音十分挑剔的人耳还是能听出细微的差别。当语速和语言片段组成句子时,话语中最细微的语音间隙也会立即暴露。最新的技术发展方向是把语音转换成数字,并利用计算方法寻找人工语音中不完善的地方。他们的目标是开发一个人类语言自我学习的数学模型,它可以使得任意对象被赋予任意的声音,而且听起来没有人工合成的感觉。
语音识别技术在移动应用上发展必将因移动智能设备手动输入的弊端超越PC,并将大有作为。未来我们将会看到更多形式、体验更棒的基于语音识别技术的移动应用,这些虚拟朋友将从另一个全新的角度改变我们生活的面貌。(编辑:刘思博)