浅谈我国语音识别技术研究与发展

来源 :科学导报·学术 | 被引量 : 0次 | 上传用户:tinnawang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:语音识别是以语音为研究对象,通过语音信号处理和模式识别让机器人自动识别和理解人类口述的语言。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的命令或文本的高新技术。随着计算机处理能力的迅速提高,语音识别技术得到了飞速发展,该技术的发展和应用改变了人们的生产和生活方式,正逐步成为计算机处理技术中的关键技术。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。
  关键词:语音识别;语音识别原理;语音识别发展;产品
  语音识别是以语音为研究对象,通过语音信号处理和模式识别让机器人自动识别和理解人类口述的语言。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的命令或文本的高新技术。
  1 语音识别的原理
  语音识别系统本质是一种模式识别系统,包括特征提取、模式匹配、参考模式库等三个基本单位元。未知语音经过话筒变换成电信号后加载识别系统的输入端,首先经过预处理,再根据人的语音特点建立语音模型,对输入的语音信号进行分析,并抽取所需特征,在此基础上建立语音识别所需的模板。
  计算机在识别过程中要根据语音识别的模型,将计算机中存放的语音模板与输入的语音信号的特征进行比较,根据一定的搜索和匹配策略,找出一系列最优的与输入语音匹配的模板。然后根据此模板的定义,通过查表可给出计算机的识别结果。这种最优的结果与特征的选择、语音模型的好坏、模板是否准确都有直接的关系。
  2 语音识别系统的分类
  语音识别系统可以根据对输入语音的限制加以分类。
  2.1从说话者与识别系统的相关性考虑
  可以将识别系统分为3类:(1)特定人语音识别系统(2)非特定人语音系统(3)多人的识别系统。
  2.2从说话的方式考虑
  也可以将识别系统分为3类:(1)孤立词语音识别系统(2)连接词语音识别系统(3)连续语音识别系统。
  2.3从识别系统的词汇量大小考虑
  也可以将识别系统分为3类:(1)小词汇量语音识别系统。(2)中等词汇量的语音识别系统。(3)大词汇量语音识别系统。
  3语音识别技术的发展
  3.1国外研究历史及现状
  语音识别的研究工作可以追溯到20世纪50年代AT&T贝尔实验室的Audry系统,它是第一个可以识别十个英文数字的语音识别系统。
  3.2国内研究历史及现状
  我国语音识别研究工作起步于五十年代,但近年来发展很快。研究水平也从实验室逐步走向实用。
  4 语音识别的方法
  一般来说,语音识别的方法有三种:基于声道模型和语音知识的方法、模板匹配的方法以及利用人工神经网络的方法。
  4.1基于语音学和声学的方法
  该方法起步较早,在语音识别技术提出的开始,就有了这方面的研究,但由于其模型及语音知识过于复杂,现阶段没有达到实用的阶段。
  通常认为常用语言中有有限个不同的语音基元,而且可以通过其语音信号的频域或时域特性来区分。这样该方法分为两步实现:
  第一步,分段和标号
  把语音信号按时间分成离散的段,每段对应一个或几个语音基元的声学特性。然后根据相应声学特性对每个分段给出相近的语音标号
  第二步,得到词序列
  根据第一步所得语音标号序列得到一个语音基元网格,从词典得到有效的词序列,也可结合句子的文法和语义同时进行。
  4.2模板匹配的方法
  模板匹配的方法发展比较成熟,目前已达到了实用阶段。在模板匹配方法中,要经过四个步骤:特征提取、模板训练、模板分类、判决。常用的技术有三种:动态时间规整(DTW)、隐马尔可夫(HMM)理论、矢量量化(VQ)技术。
  4.2.1动态时间规整(DTW)
  语音信号的端点检测是进行语音识别中的一个基本步骤,它是特征训练和识别的基础。所谓端点检测就是在语音信号中的各种段落(如音素、音节、词素)的始点和终点的位置,从语音信号中排除无声段。
  4.2.2隐马尔可夫法(HMM)
  HMM是对语音信号的时间序列结构建立统计模型,将之看作一个数学上的双重随机过程:一个是用具有有限状态数的Markov链来模拟语音信号统计特性变化的隐含的随机过程,另一个是与Markov链的每一个状态相关联的观测序列的随机过程。前者通过后者表现出来,但前者的具体参数是不可测的。可见HMM合理地模仿了这一过程,很好地描述了语音信号的整体非平稳性和局部平稳性,是较为理想的一种语音模型。
  4.2.3矢量量化(VQ)
  矢量量化(VectorQuantization)是一种重要的信號压缩方法。与HMM相比,矢量量化主要适用于小词汇量、孤立词的语音识别中。其过程是:将语音信号波形的k个样点的每一帧,或有k个参数的每一参数帧,构成k维空间中的一个矢量,然后对矢量进行量化。量化时,将k维无限空间划分为M个区域边界,然后将输入矢量与这些边界进行比较,并被量化为“距离”最小的区域边界的中心矢量值。矢量量化器的设计就是从大量信号样本中训练出好的码书,从实际效果出发寻找到好的失真测度定义公式,设计出最佳的矢量量化系统,用最少的搜索和计算失真的运算量,实现最大可能的平均信噪比。
  4.3神经网络的方法
  利用人工神经网络的方法是80年代末期提出的一种新的语音识别方法。人工神经网络(ANN)本质上是一个自适应非线性动力学系统,模拟了人类神经活动的原理,具有自适应性、并行性、鲁棒性、容错性和学习特性,其强的分类能力和输入-输出映射能力在语音识别中都很有吸引力。但由于存在训练、识别时间太长的缺点,目前仍处于实验探索阶段。
  由于ANN不能很好的描述语音信号的时间动态特性,所以常把ANN与传统识别方法结合,分别利用各自优点来进行语音识别。
  5 语音识别产品
  语音识别产品技术的应用可以分为两个发展方向:一个方向是大词汇量连续语音识别系统,主要应用于计算机的听写机,以及与电话网或者互联网相结合的语音信息查询服务系统,这些系统都是在计算机平台上实现的;另外一个重要的发展方向是小型化、便携式语音产品的应用,如无线手机上的拨号、汽车设备的语音控制、智能玩具、家电遥控等方面的应用,这些应用系统大都使用专门的硬件系统实现,特别是近几年来迅速发展的语音信号处理专用芯片(Application Specific Integrated Circuit,ASIC)和语音识别片上系统(System on Chip,SOC)的出现,为其广泛应用创造了极为有利的条件。
  6.总结与展望
  总结当前语音识别产品市场,语音识别产品在我们生活的各个领域有着越来越广泛的应用。从移动终端到PC终端,从电信行业到汽车行业,语音识别产品的出现极大的方便了我们的生活,为我们提供了一种更为亲切便捷的人机交互方式。同时,智能语音行业具有很高的行业技术壁垒,必须有时间的积累和资金的投入才能做出适应市场需求的产品。我们可以发现当前市场上主流的语音识别产品都是诸如google、微软、苹果这样的行业巨头推出来。对比国内和国外的相应语音识别产品,国内语音市场主要以语音合成为主,国外语音市场主要以语音识别为主,国内的技术发展水平相比国外仍然存在一定的差距,这也激励我们要用更大的付出去努力追赶。
  (作者单位:国家知识产权局专利局专利审查协作广东中心)
其他文献
摘要:林业在我国经济发展中占据重要地位,如何深化现代林业建设发展至关重要,林业技术高效应用是不可忽视的关键性手段。我国要从全面、深入了解現代林业建设中面临的新问题、新情况以及林业技术应用现状,通过多样化路径大力发展林业技术,充分发挥多样化功能作用,持续改变现代林业建设现状的同时提高林业经济效益以及生态水平。  关键词:林业技术;林业建设;重要性  随着国民经济的快速发展,林业建設则显得越来越重要。
期刊
摘要:槭树是著名的秋色叶树种,适宜在园林绿地中观赏,城市绿化中可作庭荫树、行道树、片林栽植。为了提高绿化成活率,通常采用春季挖冻土的办法,这种方法费时费工劳动强度大,不便于管理,同时又受季节时间的限制,成本较高,鉴于以上原因,我们进行了多种野生槭树大苗归圃装箱培育试验并得到了初步成效。  关键词:五年野生槭树;归圃;装箱培育  近年来,随着人们对绿化认识的提高,国家对绿化的重视和投入,园林绿化苗木
期刊
摘要:滑坡是一种较为常见的山区地质灾害,斜坡上的土体和岩体长期受到河流冲刷或是人工切坡,在重力的影响之下,就会产生向下滑动。本文基于滑坡灾害的发育和防治展开论述。  关键词:滑坡灾害;发育;防治  中图分类号:P642 文献标识码:A  引言  为减少地质灾害损失和保护人民生命财产安全,努力实现经济效益、社会效益、环境效益的协调统一,必须本着因地制宜、综合治理、科学合理、经济实效的原则,确定具体灾
期刊
摘要:伴随通信行业的持续发展,光缆材料应用日益广泛。其施工工艺技术则对通信工程质量产生了至关重要的影响。为此本文就通信光缆施工技术与质量控制展开探讨,制定了科学有效的实践策略。对强化施工建设水平、创新施工工艺技术,实施精细化管控,创设显著效益,有重要的实践意义。  关键词:通信光缆;施工技术;质量控制  伴随通信服务业务的不断丰富,其传输质量、速率水平等级标准越来越高。新时期,通信业务数据传输主体
期刊
摘要:水利工程施工中环境影响因素较大,为了保证基础稳定安全,采用钻孔灌注桩技术能够取得不错的效果。鉴于此,文章对水利工程钻孔灌注桩施工技术的应用展开探讨,希望通过文章的论述能够为相关工作人员提供依稀建议和参考,推动我国水利事业的全面发展。  关键词:水利工程;钻孔灌注桩;施工技术;灌注桩  引言  和传统的混凝土浇筑施工技术相比,钻孔灌注桩技术施工非常的复杂,技术要求也比较高,这就需要相关单位在运
期刊
摘要:岩土工程勘察一直以来都是建筑工程的核心工作之一,为工程的设计和施工服务。建筑基坑及基础又是整个建筑工程的关键,岩土资料的有效性和科学性直接关系基础设计的合理性和安全性,因此要做到地质勘察资料内容齐全,准确,能够正确详细评价出建筑场地条件及特殊情况下的问题,有效的保证工程的施工顺利和投资的可靠。  关键词:岩土工程;深基坑+工程;地质勘察;重要性  引言  深基坑工程有一定的复杂和不稳定的性质
期刊
摘要:交往是人们生活中不可缺少的重要技能,有了人与人之间的交往,我们才能互相了解。3—6岁幼儿,是交往能力培养的重要时期,它能促进幼儿更好的适应社会,因此,关注每一个孩子交往能力的发展,着实重要。在我的班级中,有一位小女孩引起了我的注意,她的名字叫天天。她的父母平时工作特别忙,很少照顾孩子,都是由奶奶照顾,由于老人家年纪大了,很少带她出门与其他人接触,因此她特别的内向,几乎不与人交流,时常都是低头
期刊
摘要:近年来,随着经济社会的发展,我国的工业发展以及城市化进程都日益提高,这一方面促进了国民经济的发展,但同时也带来了日益严重的环境问题,加强对环境污染的监测与治理已经成为了当前社会所普遍关注的焦点。而作为日常生活中比较常见的一种噪声污染,他对人们的生活和工作造成了很多困扰,加强对噪声污染的治理也引起了越来越多人的重视。  关键词:环境噪声监测;存在问题;对策  1噪声的定义以及危害  1.1狭义
期刊
摘要:在小学语文教学中,渗透道德教育,让小学生能够在提高语文综合素质的同时,提高自身的道德素质。能够正确理解道德思想的内涵,自觉加强道德行为约束,提高小学生的道德觉悟,增加小学生对社会主义核心价值观的正确认识,提高小学语文教师的道德素养和道德教育能力。  关键词:小学语文;德育教育;渗透策略  促进小学生德智体美全面发展是新课改下的重要教育目标,德育教育工作在小学学校教育工作中占有重要的地位。小学
期刊
摘要:在我国社会经济水平显著提高的背景下,现有的发电系统已经满足不了我国日益增长的物质文化需要,为此我国建立了很多大容量的发电设备,其中以火力发电最为著名。如今,火力发电在我国已经存在了几十年,我国对火力发电厂的水质量以及水处理技术越来越重视,对此提出了更高的要求,本文针对火力发电厂中的对水的处理过程,按时间将水分为三个阶段进行相应的管理,并且解决在处理过程中发现的问题,同时为了水资源更好的利用,
期刊