语音技术在Internet上的新应用

来源 :互联网世界 | 被引量 : 0次 | 上传用户:zyj16812
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  目前Internet的发展非常迅速,用户增加也非常快。业务的增加也是非常多的。既有传统的数据、图像业务,现在又有了语音服务,如IP电话、呼叫中心等。为了统一各个厂家网上语音产品的标准,W3C发布了Voice Browserbro(语音浏览器)标准的草案。现在这个组中的成员有AT&T、Cisco、Hitachi、HP、IBM、Intel、Lucent、Microsoft、Motorola、Nokia、Nortel、Sun和Unisys等公司。


  在这个标准中,Voice Browser组定义了几种支持语音输入和输出的链接语言。这些链接语言使语音设备可以跨越各种硬件和软件平台。特别是设计了关于对话、语音识别语法、语音合成、自然语言语义和搜集可重复使用的对话组件的链接语言。这些链接语言和组件就构成了未来语音界面框架。
  
  Voice Browser
  Voice Browser是一种翻译语音链接语言产生语音输出或者翻译语音输入的(软件和硬件)设备。它也有可能接受和产生其他形式的输入和输出。当前Voice Browser的发展已经可以使用户通过固定电话或蜂窝电话听、说来获得World Wide Web上的信息。如2000年11月7日亚洲语音在线公司正式开通了中文电话上网业务——中文语音网关。用户只要拨通010-63966666这个号码,经过简单注册就可以用电话、手机、车载电话通过人机交谈的方式从网上获得邮件、股票、航班、商场折扣、娱乐和新闻等信息。这些Voice Browser接受DTMF和语音作为输入,可以输出合成的语音或者重放事先录好的话。通过Voice Browser解析的语音链接语言在 WWW网上是可以找到的。然而Voice Browser却还有许多其他方面的发展。
  在硬件方面,包括电话、蜂窝电话、手提电脑、掌上电脑、台式计算机都可以应用Voice Browser技术。Voice Browser可以嵌入到一些设备中去,如电视、收音机、录像机、远程控制设备、微波炉、电冰箱、咖啡壶、门铃等。其实可以是一切电子或电气设备。在软件方面,可以访问商业信息,包括在企业的前台询问呼叫者的要求,自动电话预订服务,航班到达和离开信息,电影戏剧订票服务和家庭银行服务。可以访问公共信息,如天气、交通、本地、国际国内新闻、国际国内股票市场信息和电子商业交易。可以访问个人信息,如日历、地址和电话表、商店列表。帮助用户用语音邮件和其他人联系。
  现在的Voice Browser并不支持通过HTML 页进行语音接口。当前有一些公司正在创建可以有语音功能的HTML浏览器。这些有语音功能的HTML浏览器在把文本变成语音时必须决定他们的顺序,并且有可能把一些非文本的东西如表格,图象等变成语音。然而Voice Browser只是把用户确切需要的信息变成语音。
  
  语音界面框架
  
  白框图代表了有语音功能的WEB应用。黑箭头代表了在这些组件中的数据流。蓝框图表明了使用特定链接语言(ML)的数据,它们使各种组件完成各自的任务。这个语音接口框架组成包括:


  ASR(Automatic Speech Recognizer)自动语音识别器:它接受用户发出的语音然后转变成文本。ASR用一个语法器从用户的口语中识别单词。一些ASR是通过发展(Speech Grammar Markup Language,语音语法链接语言)来使用语法器的。另外一些ASR使用从大规模的口语语料库产生的统计语法。这就表明这些语法用的是N-gram Stochastic Grammar MarkupLanguage(随机听写语法链接语言)。
  DTMF Tone Recognizer(DTMF音调识别器):接受用户的拨号音频信号。用户可以通过它输入数字来进行菜单选择。
  Language Understanding Component(语言理解组件): 从一个文本中用预先标注的语法提取出语义。这些文本可能是被ASR处理过,也可能是用户直接从键盘输入的。语言理解组件可能应用标注语法。语言理解组件的输出是用Natural Language Semantics Markup Language(自然语言语义链接语言)来表示的。
  Context Interpreter(上下文解析器):它通过从对话历史(表1中没有)中获取上下文,这样可以增强Language Understanding Module(语言理解模式)。例如上下文解析器可以用代名词所指的名词来代替这个代名词。上下文解析器的输入和输出是用Natural Language Semantics Markup Language(自然语言语义链接语言)来表示的。
  Dialog Manage(对话管理器):它提示用户输入,并理解输入的意思然后决定下一步怎么做。这些都是根据用VoiceXML 2.0 标注的对话描述结构来进行的。根据输入接收的东西,对话管理器将调用应用服务或者从网上下载其他的对话脚本。对话管理器是通过Natural Language Semantics Markup Language(自然语言语义链接语言)来接收标注输入的。对话脚本是参考Rsusable Dialog Cmponents (可重复使用对话组件)的,它也只是可以重复使用多种应用对话组件中的一部分。
  Media Planner(媒体计划器):它将决定从对话管理器出来给用户输出是合成语音还是预先的录音。
  Recorded audio player(录音机):播放预先的录音文件给用户。
  Language Generator(语言生成器):接受来自媒体计划器的文本并且通过TTS准备把语音送给用户。这些文本可能包含了用Speech Synthesis Markup Language(语音合成链接语言)表示的链接标签。这种语言对于如何产生声音给出了提示和建议。这些标签可以由语言生成器自动产生,也可以由开发者人工插入。
  Text-to-Speech Synthesizer(TTS,文本-语音合成):接收来自语言生成器的文本,然后根据用Speech Synthesis Markup Language标注产生象人说话一样的声音。
  尽管各种具体的voice browser在具体的细节上可能有所不同,但是它们还是得用上图中的各种链接语言来完成这个系统。
  voice browser是一个基于服务器的应用。这与WAP协议不同,它是基于客户端的一种应用。这是因为语音识别,语音理解和合成等一些技术集成在客户端不现实,也是很困难的。例如象手机要实时完成大规模连续语音识别,现在还不行。三星手机也只能是完成几十个电话号码的识别,离这个要求还差很远。最简单的情况就是客户端只负责接收数据并且传输到服务器上,其他的工作由服务器来完成,从而保证实时性和准确性。但是这并不是一成不变的,随客户端的不同,服务器承担的任务可以不一样。例如一些特征提取可以在客户端进行,识别在服务器上;小词汇量的识别在客户端上,象三星手机那样。大词汇量的识别在服务器上进行。
  
  Voice Browser的优点
  因为人们从小到大都是用语言进行交流,所以语音接口是一个非常自然的人机交互接口。现在人们接答固定电话和蜂窝电话并没有用上Voice Browser技术。一些Voice Browser设备可能有小屏幕,象移动电话和掌上电脑那样。但是在那样小的屏幕上用键盘输入不是一件令人愉快的事情。同样在那样小的屏幕上阅读信息也不是一件轻松的事情。这时Voice Browser就体现出了它的优越性。
  现在人们上网主要还是通过台式计算机和手提电脑来上网的。虽然有了WAP协议,手机也可以上网浏览,但是很不方便。另外现在上网还是需要许多计算机知识,对于发展中国家,象我们中国大多数人来说,门槛还是过高。而应用Voice Browser可以使我们轻松用各种设备如电话、电视等一切电子或电气设备走进互联网。
  在将来,Voice Browser还可以支持其他的模式和媒体,例如用笔、图象和传感器作为输入,用活动图象和激励控制来作为输出。例如语音和笔输入可能适合我们亚洲用户。因为我们所说的语言并不是与QWERTY键盘一致的。一些Voice Browser也是便携的。这样他们可以在任何地方:家里、办公室、路上使用。所以网上信息对许多听众来说也是随时可得的。特别是对那些有电话或移动电话的用户更是如此。Voice Browser同时为那些盲人或需要访问Web,但是手和眼睛却要干其他事情的用户提供了方便的实用接口。也使盲人用户获得了和正常人一样的工作空间。
  同时它可以跨越各种平台,象电脑、电视、电话(包括移动电话)等,使人们可以随时随地获取所要的网上信息,并用语音表达出来。随着其中各项技术的发展、成熟和完善,这个市场将会迅速发展起来。
其他文献
KILL for Windows NT是北京冠群金辰软件公司出品的KILL系列软件之一,是安装在NT/2000上的防毒软件,笔者这次拿到的为试用产品。    安装    KILL for Windows NT的安装极其简单,稍具有一点软件安装经验的人员均可顺利完成安装。在安装时有以下三个选项。  值得一提的是,KILL for Windows NT安装程序提供远程安装的功能,它能够通过网络在其它的
期刊
互联网公司一度风光无限,但是那些借“风险”之名,行“烧钱”之实的好日子已经过去了。当资本要求增值的时候,互联网公司必须尽快得到盈利。没有稳定而充足的收入来源,再多的资金也只能是延缓倒闭的到来。近日,本刊记者与笑傲江湖网站的CEO胡俊峰,新浪的CEO王志东在盈利前景这一话题做了交流。    胡俊峰的创业感悟    电子娱乐业目前在全球被认为是极有前景的一项产业。美国最大的娱乐软件商会组织IDSA公布
期刊
软件:浅显 易懂 实用    进入21世纪,伴随全球经济一体化的大趋势,英语已逐渐深入到社会生活的方方面面,学会说一口流利地道的英语则成为一种时尚和潮流。可是,对于很多中国人来说,学英语已成为心中永远的痛。  但是现在,想学英语的人不用再为学好英语而发愁了。因为市场上有越来越多的多媒体英语教学软件可以迅速解决实际应用中遇到的英语问题,彻底解决学英语的烦恼。在创作思想上,英语教学软件需要充分研究目标
期刊
当TimBerners-Lee发明worldwideweb(WWW),MarcAndreessen和他的朋友推出浏览器的时候,他们改造了互联网。当今经济的飞速发展,又带动了互联网新技术的不断更新。尽管.com泡沫飞扬,但IT技术向整个社会的渗透始终不容忽视。Linux、ERP、IDC不只是个名词,我想更应该关注它们的实施。    Linux:自由与梦想的路很长    话题由2000年12月27日笔
期刊
11月15日,由国家信息中心、美商中经合集团、世界商讯机构组织的“北京之夜”新经济与中国未来发展高级论坛在美国拉斯维佳斯市举行。世纪之交,在全球IT厂商和风险投资商云集的COMDEX展览会期间,房维中先生在本次论坛上做了致辞,并阐述了对中国IT产业的观点。  他说,4月中旬以来,因美国高科技股市的深幅调整以及此后一些知名网站的倒闭,对于新经济的疑虑在一定程度上弥漫开来,甚至有些观点把新经济与传统经
期刊
华为是在3年前开始经营渠道体系的。那时候华为经过10年奋斗已经在电信领域竖起了自己的大旗。由于华为是一个靠技术能力而不是销售能力、凭借局用程控交换机起家的公司,所以以前根本不存在渠道和分销的问题。不过,随着1998年华为数据通信产品的面世,企业的产品线和销售对象都开始出现了变化。  而今,随着华为的Quidway8010接入服务器占到国内市场份额的70%,华为已一跃成为新兴的数据通信设备制造商。此
期刊
互联网的重要特征之一就是信息共享,而实现信息共享的最重要手段就是链接,这种无边无际的链接就构成了“万维网”。链接引出的法律问题已具有普遍性,研究链接的法律问题已迫在眉睫。大体上,因链接涉及的法律问题可分为两大类:一是因链接而侵权;二是因链接而行政违法。本文对此进行全面研究。    规制互联网的价值取向    任何一国法律制度的建设,都与其本土资源(政治、经济、文化以及社会习俗、社会心理、社会伦理等
期刊
1966年7月,英国标准电信研究所的英藉华人高锟(K.C.Kao)博士和霍克哈姆(G.A.HocKham)就光纤传输的前景发表了具有重大历史意义的论文,论文分析了玻璃纤维损耗大的主要原因,他们大胆地预言,只要能设法降低玻璃纤维的杂质,就有可能使光纤的损耗从每公里1000分贝降低到20分贝/公里,从而有可能用于通信。  如今,光纤通信已经是当今世界上发展最快的领域之一,也是我国与国际先进水平差距最小
期刊
前 言  电信世界正逐步形成充满竞争和挑战的局面。电信和数据通信融合为信息通信的时代已经成为现实。新的有竞争力的公司以更低的价格引入新的服务。随着新技术的不断出现,政府条例的不断放宽,信息产业正在迅速的全球化。今天,有效的信息传输已成为竞争的关键因素之一。    光网络的发展趋势  互联网应用和光技术的快速发展带来了网络哲学的根本变化。动态波长提供和快速的波长提供需求是光网络的主要趋势之一。
期刊
作为一个商业管理者,首先要组建一个非常灵活、可随时扩大和变化的信息系统。如何去做呢?我们认为IP、XML和Java这三种技术将在Internet经济的发展中扮演重要角色。  IP是一种崭新的技术,它开放的标准使数据能超越国际和技术的边界任意传输。同时,它已经从不同方面改变了商业本身的意义。电子商务就是随之产生的。但是,我们还处于将“可能”变为现实的起始阶段。每件事情看起来都正向数字化发展。电子邮件
期刊