论文部分内容阅读
【摘要】目前,声控技术在多领域广泛的应用。特别是一些具有语音控制功能的设备仪器越来越受到人们的青睐,它让人们的日常消费生活变得更加方便快捷。本文阐述了在语音无线遥控小车在硬件设计方面以意法半导体(STM)公司的STM32F103ZET6单片机作为语音无线遥控和智能小车的控制电路板的核心进行硬件系统的设计
【关键词】智能小车;语音无线遥控系统;硬件;设计
1语音无线遥控器的设计原理
语音无线遥控器结构主要由STM32F103ZET6核心控制板模块、SD卡存储器模块、语音识别模块和NRF24L01无线模块组成。其中语音识别模块是由语音输人与输出模块、语音识别芯片组成。所有的模块都是通过串行SPI方式与核心控制板相连,并由它控制。结构原理框图如图3.1所示。
语音无线遥控器的工作原理如下:通过麦克风发出控制指令控制,语音识别模块识别,产生一个32位控制码取决于控制信号由单片机的SD存储模块匹配“【关键词】列表”,然后由语音识别模块扬声器说话的声音播放出来,然后MCU发送控制信号以控制无线传输模块发送到控制码以无线电波的形式,由一个小的车接收的车辆控制单元的后MCU处理和控制小车产生预期的作用。它接收到的语音命令,通过语音识别处理的麦克风,和将识别结果作为二进制码到中央控制器,用于处理输出。
2 语音识别模块设计
LD3320芯片是一个“语音识别”专用芯片。这种芯片融合了语音识别处理器和一些包括AD,DA转换器,音频输出接口,麦克风插孔等外部电路。注重节能减排和芯片设计效率,该芯片不需要任何外部援助,如闪存,RAM等,直接集成在可实施的语音识别/语音/互动功能的现有产品,并确定关键词的列表可以在任何动态编辑。目前,语音识别芯片,通常是基于特定人的语音识别技术,芯片不能被修改,以确定工厂出厂后的条目只能识别进入识别预制之前。本文采用语音识别芯片LD3320作为研究的系统,制定语音识别解决方案。ICRoute产生LD3320是基于语音识别技术,语音识别/声音芯片的非特定的人。外围只需要低级单片机水平,让MCU控制芯片LD3320,麦克风连接到AD引脚,就能达到语音识别功能。LD3320具有高效的非特定人语音识别搜索引擎和完整的特征库。LD3320语音识别有高达94%准确率,而且无需语音训练。LD3320模块原理图如图3.3所示。
2.1 语音识别芯片LD3320的工作原理
LD3320语音识别芯片采用的就是ASR技术,LD3320的语音识别进程,首先对由麦克风输入的语音进行频谱分析。让语音与关键词列表的词进行比较,最后最相近的关键词作为识别结果。
语音识别芯片LD3320采用ASR技术,提供了一种脱离各种各样操作方式只用语音来控制系统的操作,这样使得操作更简单、快速和自然。使用者只需要以字符串的形式把识别的关键词语传送进芯片,就可以让识别立即生效,例如,使用者编程时,简单地通过设置芯片的寄存器,把诸如“关灯”这样的关键词语的内容动态地传人芯片中,芯片就可以识别所设定的关键词语了,关键词就是由汉语拼音组成。LD3320的语音识别系统可以随着程序,在运行时动态地更改关键词语列表的内容,应用到多种不同的场景,而且不需要语音训练。
2.2 语音识别技术
语音识别(ASR)技术是基于“关键词语列表”的识别技术,它是对大量的语音数据经语言学家语音模型分析,建立数学模型,并经过反复训练提取基元语音的细节特征,以及提取各基元间的特征差异,得到在统计概率最优化意义上的各个基元语音特征,再利用算法以及语音模型转换成硬件芯片并广泛应用在嵌入式系统中。ASR技术的每次语音识别的过程就是把使用者说出的语音内容,利用频谱转换为语音特征,再将这个转换后的语音特征和“关键词语列表”中的条目一一进行匹配,匹配到与列表中最相近的就作为识别结果。如ASR技术在语音控制的手机应用中,这个“关键词语列表”的内容手机中各个应用的名称,不论这个识别列表的内容是什么,只需要使用者设置相关的寄存器,就可以把相应的待识别条目内容以字符形式传递给识别引擎,就能达到识别的目的[14]。
2.3 LD3320的用户使用模式
LD3320具有两种识别模式,分别是“触发识别模式”和“循环识别模式”。两种不同的识别模式可以通过编程设置。触发识别模式:通过按键让MCU开启定时识别过程(比如5 s),在这个定时过程中使用者说出要识别列表中的语音关键词语。直到整个识别过程结束后,使用者才能再一次触发识别[15]。循环识别模式:MCU 反复开启识别过程,如果声音输入就不会产生识别结果,每次识别都有一个定时的识别过程;如果产生了识别结果,则根据识别列表的作相应处理后(比如播放语音),才允许开启下一个识别过程。
3主控制器模块
无线语音遥控系统跟智能小车系统所采用的核心控制器都是ST公司的STM32F103ZET6这一款芯片。其电路图附录A所示。该芯片基于ARM Cortex—M3 32位的RISC内核,工作频率最高可达72 MHz,内置高速存储器(256 KB 的闪存和20 KB 的SRAM)。STM32系列提供了全新的32位产品选项,具有高性能、实时、低功耗、低电压等特性,同时让高集成度和易于开发的优势结合在一起,将32位MCU世界的性能和功效引向一个新的级别。
4 存储模块
一般的芯片里面都没有足够的储存空间,然而语音数据又必须有个地方存储,才能正常的播报出来。本系统采用了通用的SD卡模块,可以随意扩张内存。最主要作用用来保存剪辑的或自己录制与制作的MP3格式的语音材料,存储模块的电路图如图3.5所示。
5无线模块
1、nRF24.L01是一款新型单片射频收发器件,工作于2.4 GHz~2.5 GHz ISM频段,里面有频率合成器、功率放大器、晶体振荡器、调制器等功能模块,并融合了增强型ShockBurst技术,可通过程序进行配置输出功率和通信频道[18]。nRF24L01是低功耗,在以-6 dBm的功率发射时,也只有9 mA的工作电流;接收的时候,只有12.3 mA工作电流,大量的低功率工作模式(掉电和空闲模式)使设计节能更方便。
2、发射数据:将nRF24L01设置为发射模式,利用SPI协议把接收地址和数据写到nRF24L01缓存区,CSN为低时才能连续写入数据,发射时只要配置一次发射地址就可以,再保持CE为至少10μs高电平和延迟130μs,这样就能发射数据[19]。
3、接收数据:将nRF24L01配置为接收模式,延迟130μs,则就为接收状态,这时只要等待数据的到来。当接收到正确地址和CRC时,数据包就会被存储在RX FIFO中,同时RX_DR中断标志位被置高,IRQ被置低,中断发生,MCU这时就会去读数据,这样就接收到数据了[20]。
4、无线模块由STM32F103ZET6直接控制,该单片机通过SPI与nRF24L01相连,其电路图如图3.6所示。
【关键词】智能小车;语音无线遥控系统;硬件;设计
1语音无线遥控器的设计原理
语音无线遥控器结构主要由STM32F103ZET6核心控制板模块、SD卡存储器模块、语音识别模块和NRF24L01无线模块组成。其中语音识别模块是由语音输人与输出模块、语音识别芯片组成。所有的模块都是通过串行SPI方式与核心控制板相连,并由它控制。结构原理框图如图3.1所示。
语音无线遥控器的工作原理如下:通过麦克风发出控制指令控制,语音识别模块识别,产生一个32位控制码取决于控制信号由单片机的SD存储模块匹配“【关键词】列表”,然后由语音识别模块扬声器说话的声音播放出来,然后MCU发送控制信号以控制无线传输模块发送到控制码以无线电波的形式,由一个小的车接收的车辆控制单元的后MCU处理和控制小车产生预期的作用。它接收到的语音命令,通过语音识别处理的麦克风,和将识别结果作为二进制码到中央控制器,用于处理输出。
2 语音识别模块设计
LD3320芯片是一个“语音识别”专用芯片。这种芯片融合了语音识别处理器和一些包括AD,DA转换器,音频输出接口,麦克风插孔等外部电路。注重节能减排和芯片设计效率,该芯片不需要任何外部援助,如闪存,RAM等,直接集成在可实施的语音识别/语音/互动功能的现有产品,并确定关键词的列表可以在任何动态编辑。目前,语音识别芯片,通常是基于特定人的语音识别技术,芯片不能被修改,以确定工厂出厂后的条目只能识别进入识别预制之前。本文采用语音识别芯片LD3320作为研究的系统,制定语音识别解决方案。ICRoute产生LD3320是基于语音识别技术,语音识别/声音芯片的非特定的人。外围只需要低级单片机水平,让MCU控制芯片LD3320,麦克风连接到AD引脚,就能达到语音识别功能。LD3320具有高效的非特定人语音识别搜索引擎和完整的特征库。LD3320语音识别有高达94%准确率,而且无需语音训练。LD3320模块原理图如图3.3所示。
2.1 语音识别芯片LD3320的工作原理
LD3320语音识别芯片采用的就是ASR技术,LD3320的语音识别进程,首先对由麦克风输入的语音进行频谱分析。让语音与关键词列表的词进行比较,最后最相近的关键词作为识别结果。
语音识别芯片LD3320采用ASR技术,提供了一种脱离各种各样操作方式只用语音来控制系统的操作,这样使得操作更简单、快速和自然。使用者只需要以字符串的形式把识别的关键词语传送进芯片,就可以让识别立即生效,例如,使用者编程时,简单地通过设置芯片的寄存器,把诸如“关灯”这样的关键词语的内容动态地传人芯片中,芯片就可以识别所设定的关键词语了,关键词就是由汉语拼音组成。LD3320的语音识别系统可以随着程序,在运行时动态地更改关键词语列表的内容,应用到多种不同的场景,而且不需要语音训练。
2.2 语音识别技术
语音识别(ASR)技术是基于“关键词语列表”的识别技术,它是对大量的语音数据经语言学家语音模型分析,建立数学模型,并经过反复训练提取基元语音的细节特征,以及提取各基元间的特征差异,得到在统计概率最优化意义上的各个基元语音特征,再利用算法以及语音模型转换成硬件芯片并广泛应用在嵌入式系统中。ASR技术的每次语音识别的过程就是把使用者说出的语音内容,利用频谱转换为语音特征,再将这个转换后的语音特征和“关键词语列表”中的条目一一进行匹配,匹配到与列表中最相近的就作为识别结果。如ASR技术在语音控制的手机应用中,这个“关键词语列表”的内容手机中各个应用的名称,不论这个识别列表的内容是什么,只需要使用者设置相关的寄存器,就可以把相应的待识别条目内容以字符形式传递给识别引擎,就能达到识别的目的[14]。
2.3 LD3320的用户使用模式
LD3320具有两种识别模式,分别是“触发识别模式”和“循环识别模式”。两种不同的识别模式可以通过编程设置。触发识别模式:通过按键让MCU开启定时识别过程(比如5 s),在这个定时过程中使用者说出要识别列表中的语音关键词语。直到整个识别过程结束后,使用者才能再一次触发识别[15]。循环识别模式:MCU 反复开启识别过程,如果声音输入就不会产生识别结果,每次识别都有一个定时的识别过程;如果产生了识别结果,则根据识别列表的作相应处理后(比如播放语音),才允许开启下一个识别过程。
3主控制器模块
无线语音遥控系统跟智能小车系统所采用的核心控制器都是ST公司的STM32F103ZET6这一款芯片。其电路图附录A所示。该芯片基于ARM Cortex—M3 32位的RISC内核,工作频率最高可达72 MHz,内置高速存储器(256 KB 的闪存和20 KB 的SRAM)。STM32系列提供了全新的32位产品选项,具有高性能、实时、低功耗、低电压等特性,同时让高集成度和易于开发的优势结合在一起,将32位MCU世界的性能和功效引向一个新的级别。
4 存储模块
一般的芯片里面都没有足够的储存空间,然而语音数据又必须有个地方存储,才能正常的播报出来。本系统采用了通用的SD卡模块,可以随意扩张内存。最主要作用用来保存剪辑的或自己录制与制作的MP3格式的语音材料,存储模块的电路图如图3.5所示。
5无线模块
1、nRF24.L01是一款新型单片射频收发器件,工作于2.4 GHz~2.5 GHz ISM频段,里面有频率合成器、功率放大器、晶体振荡器、调制器等功能模块,并融合了增强型ShockBurst技术,可通过程序进行配置输出功率和通信频道[18]。nRF24L01是低功耗,在以-6 dBm的功率发射时,也只有9 mA的工作电流;接收的时候,只有12.3 mA工作电流,大量的低功率工作模式(掉电和空闲模式)使设计节能更方便。
2、发射数据:将nRF24L01设置为发射模式,利用SPI协议把接收地址和数据写到nRF24L01缓存区,CSN为低时才能连续写入数据,发射时只要配置一次发射地址就可以,再保持CE为至少10μs高电平和延迟130μs,这样就能发射数据[19]。
3、接收数据:将nRF24L01配置为接收模式,延迟130μs,则就为接收状态,这时只要等待数据的到来。当接收到正确地址和CRC时,数据包就会被存储在RX FIFO中,同时RX_DR中断标志位被置高,IRQ被置低,中断发生,MCU这时就会去读数据,这样就接收到数据了[20]。
4、无线模块由STM32F103ZET6直接控制,该单片机通过SPI与nRF24L01相连,其电路图如图3.6所示。