论文部分内容阅读
语音是人类长久利用的语音形式,很多民族没有文字,但是所有的民族都运用语言。自从有了计算机,人类就想通过语音的方式和计算机进行交流。
不过,对于计算机来说,成功地识别自然语音并利用识别结果,是最近几年才开始的,以前的产品大多带有实验性质。直到现在为止,语音应用还不是很充分的一种人机交流手段。目前人们主要还是用计算机语音识别技术和产品来干一些文字录入和简单的语音命令驱动的工作。不过,语音的应用场合可不仅仅是上述内容。现在人类在运用计算机语音方面正处于一个开始转折的阶段。
为了推动语音技术更好地为人们服务,IBM公司于1999年组织了一次“全国高校ViaVoice语音应用程序大赛”,这次比赛的主要内容是用ViaVoice的语音开发工具来开发语音应用。包括北大、清华等多家国内大家的100名左右的大学生参加了本次比赛。
在这次比赛中,参赛选手有的搞起了网上“语音聊天室”,有的搞起了语音输入法,还有声音控制的游戏。除了这些娱乐的和平常的参赛作品以外,还有“基于Web网络的城市公交和旅游路线的语音查询(及构造)系统”,这给普通老百姓的生活带来很大的方便,对于那些想推广旅游景点的城市,也是十分适用的。
通过这次大赛,使很多人转变了观念,原来语音会有这么多的应用。其实仔细想想,语音本来就是人类生活中的比文字还普及的工具,人们用语音来呼唤别人的名字,机场用语音来招呼乘客登机,孩子用不熟练的话去向母亲要吃的,行路者用语音来问路,购买产品的消费者通过电话来询问。生活中语音无处不在,所以语音应用也是无处不在的。
语音应用,首先要有需求基础,其次是要有先进的技术和成熟的、能够切实去满足各种语音应用需求的产品,比如象IBM的Viavoice。从60年代开始,IBM公司就开始了对于计算机语音技术的研究,IBM沃森研究中心就是一个研究语音技术的知名机构。沃森中心不仅研究了声音本身的识别和合成,更重要的是沃森中心利用语音本身的规律,对于语言材料进行了大规模的统计,利用统计中各种词汇上下文的相关关系,大大提高了语言识别的效率。语音识别,无非是两方面的事情,一个是要把声音识别准确,另一个就是要利用上下文搞清楚声音所对应的单词或者汉字。一个是研究利用语音模型,一个是研究利用语言模型。沃森中心在这两方面都进行了长期的探索和研究,取得了丰硕的成果。利用统计关系进行语言模型研究,已经成为现在的语音应用的基本思路。可以这样说,没有沃森中心的坚持不懈的努力,就没有今天包括ViaVoice和其他语音应用产品的出现。
语音应用有多大的吸引力,这个问题如果不用实证的方法,恐怕还难以想象。1997年底汉王公司把IBM ViaVoice97与自己的手写汉字识别结合起来,做了一个汉王听写系统,销量在短短两个月内增长了6倍。如果没有语音识别技术对于用户的吸引,是不可能完成如此巨大销量的。现在IBM ViaVoice98中文版包括了普通话、四川话、广东话、上海话四个版本,在原有的基础上提高了一大步。这些技术和产品的进步,为中文语音应用创造了条件。
在本次大赛中,还有“卡拉OK自动评分系统”、“智能语言工作笔记本”、“语音办公管理系统”、“语音定位系统”、“歌曲歌词自动记录程序”、“自动导向车的语音控制系统”、“声控图形编辑器”、“声音控制的鼠标”、“语音化教学软件”以及“全国民航班次语音查询系统”等等。如果有合适的企业把这些应用转化为产品,会大大提高社会的生产效率。那些使用语音识别产品的企业,会获得巨大的增值效果。所以,这些应用思路是有巨大价值的。
在未来的2年内,以ViaVoice为代表的计算机语音技术会得到充分的应用,会把我们的生活改变得更有效率。一些新的24小时利用计算机语音提供的服务会出现,人们会感到更方便。语音技术未来的发展将从技术上继续推动这些应用。
语音应用,增值无限,商机无限。
不过,对于计算机来说,成功地识别自然语音并利用识别结果,是最近几年才开始的,以前的产品大多带有实验性质。直到现在为止,语音应用还不是很充分的一种人机交流手段。目前人们主要还是用计算机语音识别技术和产品来干一些文字录入和简单的语音命令驱动的工作。不过,语音的应用场合可不仅仅是上述内容。现在人类在运用计算机语音方面正处于一个开始转折的阶段。
为了推动语音技术更好地为人们服务,IBM公司于1999年组织了一次“全国高校ViaVoice语音应用程序大赛”,这次比赛的主要内容是用ViaVoice的语音开发工具来开发语音应用。包括北大、清华等多家国内大家的100名左右的大学生参加了本次比赛。
在这次比赛中,参赛选手有的搞起了网上“语音聊天室”,有的搞起了语音输入法,还有声音控制的游戏。除了这些娱乐的和平常的参赛作品以外,还有“基于Web网络的城市公交和旅游路线的语音查询(及构造)系统”,这给普通老百姓的生活带来很大的方便,对于那些想推广旅游景点的城市,也是十分适用的。
通过这次大赛,使很多人转变了观念,原来语音会有这么多的应用。其实仔细想想,语音本来就是人类生活中的比文字还普及的工具,人们用语音来呼唤别人的名字,机场用语音来招呼乘客登机,孩子用不熟练的话去向母亲要吃的,行路者用语音来问路,购买产品的消费者通过电话来询问。生活中语音无处不在,所以语音应用也是无处不在的。
语音应用,首先要有需求基础,其次是要有先进的技术和成熟的、能够切实去满足各种语音应用需求的产品,比如象IBM的Viavoice。从60年代开始,IBM公司就开始了对于计算机语音技术的研究,IBM沃森研究中心就是一个研究语音技术的知名机构。沃森中心不仅研究了声音本身的识别和合成,更重要的是沃森中心利用语音本身的规律,对于语言材料进行了大规模的统计,利用统计中各种词汇上下文的相关关系,大大提高了语言识别的效率。语音识别,无非是两方面的事情,一个是要把声音识别准确,另一个就是要利用上下文搞清楚声音所对应的单词或者汉字。一个是研究利用语音模型,一个是研究利用语言模型。沃森中心在这两方面都进行了长期的探索和研究,取得了丰硕的成果。利用统计关系进行语言模型研究,已经成为现在的语音应用的基本思路。可以这样说,没有沃森中心的坚持不懈的努力,就没有今天包括ViaVoice和其他语音应用产品的出现。
语音应用有多大的吸引力,这个问题如果不用实证的方法,恐怕还难以想象。1997年底汉王公司把IBM ViaVoice97与自己的手写汉字识别结合起来,做了一个汉王听写系统,销量在短短两个月内增长了6倍。如果没有语音识别技术对于用户的吸引,是不可能完成如此巨大销量的。现在IBM ViaVoice98中文版包括了普通话、四川话、广东话、上海话四个版本,在原有的基础上提高了一大步。这些技术和产品的进步,为中文语音应用创造了条件。
在本次大赛中,还有“卡拉OK自动评分系统”、“智能语言工作笔记本”、“语音办公管理系统”、“语音定位系统”、“歌曲歌词自动记录程序”、“自动导向车的语音控制系统”、“声控图形编辑器”、“声音控制的鼠标”、“语音化教学软件”以及“全国民航班次语音查询系统”等等。如果有合适的企业把这些应用转化为产品,会大大提高社会的生产效率。那些使用语音识别产品的企业,会获得巨大的增值效果。所以,这些应用思路是有巨大价值的。
在未来的2年内,以ViaVoice为代表的计算机语音技术会得到充分的应用,会把我们的生活改变得更有效率。一些新的24小时利用计算机语音提供的服务会出现,人们会感到更方便。语音技术未来的发展将从技术上继续推动这些应用。
语音应用,增值无限,商机无限。