Siri与智能语音控制

来源 :新电脑 | 被引量 : 0次 | 上传用户:lzl2008000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  Siri是iPhone 4S搭载的一项重要功能,用户可以直接用语言与智能手机进行简单的交流并对手机发出指令。能够“听话”的手机,已经不再是一台冷冰冰的机器……
  
  在各类故事中,人与机械的交流总是令人充满想象的空间。比如《一千零一夜》中四十大盗的藏宝窟:只要来人说一声“芝麻开门”,大门就会打开;说一声“芝麻关门”,大门则会关上。不过,当计算机出现之初,人们与它只能直接通过机器语言来交流,这些机器语言由成千上万个“0”和“1”组成,并且被打孔机打在长长的纸带上。当DOS和UNIX出现后,就可以通过输入指令来让计算机从事相应的工作。图形界面的出现则是人机交流的一大飞跃,直到今天,无论我们是用鼠标,还是用手指在屏幕上点点戳戳,本质上都是基于图形界面的人机交流。那么,有没有可能我们说什么,就能让电脑执行什么呢?这的确是个很吸引人的课题。从本质上而言,无论智能手机还是机器人,都是电脑的一种存在形式。如果它们能够“听懂”我们的指令,并按照指令来行事,那真是很方便的一件事情。
  也许有读者会说,这其实很简单,比如语音拨号,只要说出想要联系的人名,手机就会拨打此人的电话,这个功能在很早以前就已经实现了。不过,这仅仅是最初级阶段的语音识别:它基于的是手机自身的数据库,也是用手机自身的功能搞定拨号;而且,即使用户吐字清晰,并且电话簿没有重名,面对好几个“张军”、“张君”、“章均”,手机也会晕菜,更别提很多地方的用户“王”、“黄”不分等发音的差别了。这样简单的功能,本身已经是out了,让我们看看iPhone 4S搭载的Siri能够做什么。
  惊艳的Siri
  如果在几个月前看到右上图中的对话,或许你会以为这是一个人在与朋友聊天,而如今我们都知道,这是在Siri在评测中给出的回答。此外,通过网上大量的视频,我们还能够了解到Siri更加丰富的应用,比如设定和优化路线、天气预报等等。Siri的功能实现有着强大的后盾,首先是对话式的界面以及相应的语音识别数据库,其次是基于云计算的数据搜索和服务查询,最后则是各类功能的智能型整合。它的智能化程度超越了以往的各类语音识别应用软件,借助它的算法和数据库,Siri可以判断出你说的地方是宾馆还是超市,你想找的东西是化妆品还是食品。我们可以用一个应用例子来分析Siri都在做什么:对于“I like a romantic place for Italian food near my office(我想在我办公室附近找个浪漫的,有意大利食品的地方)”这句话,Siri 回答:“I am looking for a Italian restaurant which reviews say are romantic near your work in San Jose...(我在寻找一个你在San Jose工作地点附近的拥有浪漫点评的意大利餐馆)”。首先,Siri会根据上下文了解用户的需求条件是办公地点附近的,拥有意大利食品的浪漫之处,进而判断,意大利食品只能在意大利餐馆(要注意到,用户根本没有提restaurant这个词汇)得到,然后,它会通过GPS或者无线基站服务锁定用户大致位置,用云端的数据库搜索(远程平台)寻找该位置附近用户评价为“浪漫”的意大利餐馆,并把结果反馈给用户。
  Siri起源于美国政府2003年投资的“个人学习型助理”研究计划,这一计划先后资助SRI International等多家公司和研究机构进行新一代的智能助理的研究,它们能够从经验中学习和推理,并听从指令完成特定的任务。此后SRI将这一部分分离出来成为Siri,又进行了商业融资并进一步开发。2010年,苹果斥资2亿美元收购了Siri,并将Siri应用放在App Store中销售,但在iPhone 4S上市后停止了销售,使之变成目前iPhone 4S独享的功能。而且,它已经被整合为iOS的一部分,可以想象,苹果未来的机型都可以搭载这一功能,而每次对系统的更新也会使Siri的用户受益。
  智能语音控制与局限
  以Siri为代表的智能语音控制与传统的语音控制相比最显著的区别是前者是模糊的、可学习的,而后者只能使用特定的指令,就像四十大盗的藏宝窟只对“芝麻开门”和“芝麻关门”两条指令产生响应,而智能语音控制则要灵活得多,只要包含有“开门”和“关门”这样的语句,它都会根据上下文环境来判断是否发出开关指令。一个典型的例子是,用户通过Siri提问“纽约的天气如何?”得到回答后,再提问“那么洛杉矶呢?”此时Siri依然会给出洛杉矶的天气信息,而不是到洛杉矶怎么走,或者是洛杉矶有多少人口。不过,智能语音控制实现的条件要求相当高。首先,程序必须要有足够优化的算法,以实现对语音的高效识别和判断。其次,要有足够庞大的云端数据库和足够的带宽,以便执行搜索和反馈。最后,平台要有相应的功能,用户既不能让iPhone 4S去打扫卫生,也不能让它变出一个美女来聊天。
  智能语音控制的前景非常美好,Siri也是非常吸引人的功能,但任何事物都有一定的局限性。Siri对语音的识别并非准确无误,发音不准确会造成识别困难,而且目前苹果还没有开放中文的Siri功能,这是因为由单词和中文字组成的句子的语义识别算法有较大差异。此外,模糊化的语音控制本身也是一柄双刃剑,因为要有一定的容错性,因此很难判断接收到的语音和指令是否得到授权。据传苹果准备在iOS 5.1中加入更加基础的应用,如收发电子邮件的支持,添加或删除通讯录等等,这些功能可能需要用户的密码授权才能完成。
  其他平台的智能语音控制
  尽管苹果不是手机平台实现语音控制的第一家企业,但它绝对是做得最好的一家企业。在智能手机平台上,目前能够与iOS相提并论的只有Android,而且Google公司的搜索引擎无论在功能上还是信息量上都是最出色的,云端技术也非常强大,这也使广大Android用户对类似的功能充满了期待。事实上,早在苹果在系统中植入Siri之前,Android平台上已经出现了大量的语音识别软件,比如日本的NTT Docomo公司提供的Speakey和Voice IT。在Siri大红大紫之后,Iris、Speaktoit等Android平台第三方语音识别软件也借机火了起来。不过,这些软件的“智商”和“能力”都无法与Siri相提并论。我们也希望Google能够凭借自己强大的技术后盾做出类似的应用,不过在Android 4.0中提供的Voice Action也仅仅是过去传统语音识别的增强版。
  一些智能型玩具和智能型机器人也能够理解用户的语音并完成一些云端提供的服务,但它们与智能手机平台的侧重点不同。比如腾讯推出的“Qrobot”在娱乐方面的功能就相当强大,可称得上是老少咸宜的互联网应用型智能玩具,连笔者都动心考虑给孩子买一台玩玩。总而言之,目前的智能语音控制技术只能算作刚刚起步,但我们对它的未来充满期待。
其他文献
一般而言,科技产品的整体外观方形居多,这方面的原因多种多样,我们至少可以举出4个以上的理由:首先是人类视觉的要求,如沿用了几十年的方形显示器屏幕等等,圆形屏幕则只会在
期刊
期刊
多肽和蛋白质类药物难以通过血脑屏障,常规给药途径而到达中枢神经系统。鼻腔给药可使药物绕过BBB而进入中枢。本文综述了近年来多肽和蛋白质类药物经鼻靶向CNS给药的研究现
近20年,由于放射设备及介入技术的发展,脑血管疾病的介入治疗已成为目前国内外公认的又一种新的重要诊断及治疗方法。本文从脑血管疾病介入治疗的适应证等等方面对目前国内外
借IDF06在深圳举办之机,英特尔发布了多款不同定位的产品,其中就包括代号为Apollo Lake的新一代超低功耗平台。作为Braswell和Cherry Trail的继任者,Apollo Lake平台的架构从之前的Airmont升级为Goldmont,核显也随之升级,主要增加了H.265和VP9等新一代高清解码的硬件支持能力,能在进行相应工作的时候更好地控制功耗。提高性能、降低功耗的新平台,对增
期刊
移动互联网从概念逐渐走近普通用户的生活,各种移动应用出现在手机、平板、笔记本电脑等多种平台之上,移动互联网时代的到来,将会彻底改变人们的生活。而移动互联产品和技术的不断创新和涌现,也将彻底颠覆中国互联网市场的格局。    随着3G和三网融合的全面推进,进入移动互联网新时代的大门已经打开,中国正跑步进入继桌面互联网之后的技术快速发展期。  2010年,中国3G用户量已超过4600万户,其中手机用户占
期刊
由于缺乏语言环境和专业外教,在学外语时我们往往会遇到很多困难,即便经过了努力的训练,最终练就的总是看得懂、写得了但是却说不出的哑巴外语。而微软亚洲研究院开发的新技术则改善了这一问题,将免费外教带到了我们身边。    被称为3D Photo-Realistic Talking Head的技术可以为用户生成虚拟3D头像,该3D头像可以读出输入的文本,而且口型与语音能够与原用户十分近似。更为神奇的是,该
期刊
神经干细胞源自胚胎干细胞,是神经系统形成和维持的细胞来源,具有增殖分化为神经元、少突胶质细胞和星形胶质细胞的潜能。自1992年,Reynolds等首先从成体大鼠纹状体中分离出
会议
近年来随着对瘀血机制的深入探讨,活血利水法已在临床各科得到广泛应用。本文依据中医理论、实验研究和临床研究结果认为"脑出血"后致"脑水肿"病机关键为"脑中蓄血"和"脑内蓄
微博之所以流行,与移动互联网的发展息息相关。实际上,未来,特别是智能手机时代,微博可能会成为无线移动互联网的杀手级应用。  截至2011年2月,新浪微博用户数量突破1亿大关,而这仅用了一年半的时间。据新浪分析,50%甚至更多的用户通过手机等移动终端上微博。  为什么微博的发展速度如此之快?借移动互联网的东风,微博利用用户的碎片化时间,将其与移动互联网的结合满足了用户随时随地的应用需求。  微博和S
期刊