论文部分内容阅读
【摘 要】在对语音信号处理研究的基础上,采用 TI公司的TMS320VC5502处理器,对TMS320VC5502芯片的主要外设及特点进行了研究,据此设计了语音门锁系统的音频数据采集电路、外部存储器接口、系统的控制显示部分、系统的电源部分等硬件。该硬件系统在MATLAB环境下实现了对说话人语音的准确识别。
【关键词】语音识别;硬件;TMS320VC5502;DSP
前言
说话人识别技术近几年取得了快速的发展。现在大多数的移动手机可以整合有语音拨号功能。在通过电话网络用语音识别口语对话系统查询有关的机票、旅游、银行信息等语音服务人机交互方面等,已经取得很好的结果。本系统研究的目的就是不需要使用钥匙,仅依靠说话人的语音来控制门锁开启。此系统由按键输入(DIP)、语音信号采集、语音信号处理,存储器扩展以及LCD(液晶显示器)等几部分组成。其中按键输入部分用于向DSP发送控制命令(训练、识别和擦除);语音信号采集部分用于完成将模拟音频信号转换成数字信号;存储器扩展部分用来存储所需要的数据;LCD部分用于显示程序的运行状态和识别结果
1.系统的硬件结构
本文采用TMS320VC5502实现系统功能,硬件系统结构如图1所示。其中音频数据采集模块完成将模拟音频信号转换成数字信号,由音频编解码芯片(TLV320AIC23)完成,可通过I2C控制电路完成对它内部寄存器的配置。数据处理部分以TMS320VC5502 DSP芯片作为主处理器,主要完成对说话人语音特征参数的提取、VQ量化等。存储器模块包括SDRAM和FLASH两部分,其中SDRAM用来存储DSP处理过程中的数据,FLASH用来存储程序代码和训练的模板库。利用CPLD可以对DIP按键、液晶显示器(LCD)和状态指示灯(LED)进行控制。其中DIP按钮可向DSP板发送控制命令动作(识别、训练和模板擦除),程序的运行状态和识别结果可显示在LCD上。
图1 系统硬件结构图
2.处理器 TMS320VC5502的片内外设
2.1 I2C总线
I2C总线是英文 INTER IC BUS的简称,是同步通信的一种特殊形式,具有接口线少,控制方式简单,器件裝形式小,通信速率较高等优点。
I2C总线是由数据线SDA和时钟SCL构成的串行总线,可发送和接收数据。数据发送寄存器ICDXR、发送移位寄存器ICXSR、接收移位寄存器ICRSR和数据接收寄存器ICDRR负责SDA上串行数据的发送与接收;时钟同步器,用来同步I2C输入时钟(来自DSP时钟发生器)和SCL引脚上的时钟,还要同步不同频率主设备的数据传输;仲裁单元根据竞争检测的原则,I2C模块所有的数据均通过16位内部外设总线与DSP连接。
2.2 多通道缓冲串口
VC5502提供了3 个高速、全双工、多通道缓存串行口McBsp,每个串口可以支持 128 通道,速度达 100 Mb/s。McBsp是在标准串口基础上的功能扩展,与标准串口有相同的基本功能,能够与工业标准的串行 A/D(D/A)设备直接连接。
2.3 DMA控制器
DMA设置时,首先确定数据传输的源起始地址,之后再设定数据传输的长度。用于设定数据传输起始地址的DMA控制寄存器如下:
DMA_CSSA_L:源起始地址低段;
DMA_CSSA_U:源起始地址高段;
DMA_CDSA_L:目的起始地址低段;
DMA_CDSA_U:目的起始地址高段;
DMA以字节为单位在各种存储空间中访问,若给定的字地址,应形成字节地址。
2.4 音频数据采集模块的硬件设计
本系统的音频数据采集电路选用TI公司的音频编解码芯片TLV320AIC23B来完成,它使DSP可以处理模拟信号,DSP的I2C总线用于连接AIC23B的控制接口,MCBSP用于连接AIC23B的数据接口。通过软件设计可以选择线性输入或麦克风输入作为TLV320AIC23B的模拟输入,AIC23B的模拟输出可以同时输出到线性输出和耳机输出上。
3.音频数据采集模块的硬件设计
3.1 音频解码芯片TLV320AIC23B
TLV320AIC23是TI公司推出的一款高性能立体声音频编解码器,内置耳机输出放大器,支持mic和line in二选一的输入方式。输入和输出都具有可编程的增益调节功能。TLV320AIC23的模/数转换器(ADC)和数,模转换器(DAC)集成在芯片内部.采用先进的Σ一△过采样技术.可以在8kHz至96kHz的采样率下提供16bit、20bit、24bit和32bit的采样数据。ADC和DAC的输出信噪比分别可达90dB和100dB。同时。TLV320AIC23还具有很低的功耗(回放模式为23mW。节电模式为15μw)。上述优点使得TLV320AIC23成为一款非常理想的音频编解码器,与TI的DSP系列相配合更是相得益彰。因此,对于录音使用中的模拟输入输出和可移动的数字音频播放等应用系统,AIC23无疑是十分理想的选择。
3.2 TLV320AIC23B与DSP的连接
TLV320AIC23B与微处理器的接口有两个,一个是控制接口,用于设置AIC23B的工作参数,使用DSP的I2C总线进行AIC23B的配置。另一个是数字音频接口,用于将AIC23的ADC转换后的音频数据送往DSP。其接口原理图如“图2”所示。TLV320AIC的控制接口由、MODE、SDIN和SCLK构成。其中MODE接数字地,表示利用I2C控制接口对AIC23传输控制数据。CS接数字地,定义了在I2C总线上AIC23的7bit外设地址为“0011010”。四种模式中的DSP模式是专门设计用来与 TI公司的DSP的McBSP相兼容,因此在设计中经常被采用。 图2 TLV320AIC与VC5502接口原理图
4.外部存储器接口设计
4.1 TMS320VC5502存储器
C55X DSP对数据空间和程序空间进行统一编址,保留IO空间用于片内外设寄存器。由于一定的历史和技术原因,程序代码以8位的字节方式寻址,而数据是以16位的字方式寻址。程序和数据都可以分配在统一编址空间的任何位置。
C5502DSP的地址有24位,可以寻址的最大存储空间位16M字节或8M字节。外部存储器接口(EMIF)把存储空间分为大小相同的四个部分,每个部分提供一个外部片选信号。
4.2 外部存储器接口
C55的外部存储器接口除了对异步存储器的支持以外,还提供对同步动态存储器(SDRAM)和同步突发静态存储器(SBSRAM)的支持。
4.3 SDRAM电路的设计
在说话人识别系统中,由于处理语音数据的量十分庞大,而DSP的内部存储器又远不能满足需求,为了使系统能够及时、完整地处理前端采集的数据,故采用 DSP和大容量缓冲存储器相连。同步动态随机存储器(SDRAM)具有高速、大容量、价格低廉等优点,因而成为缓冲存储器的首选。
TMS320VC55x外部存储器接口支持16位、32位宽,64Mb和128Mb SDRAM。本系统中SDRAM采用Micron公司的MT48LC2M32B2,该器件是一款高速COMS電平的同步动态RAM,存储容量为64Mbit(512Kx32x4 banks)。“图3”给出了SDRAM与EMIF的接口示意图。
“图3”中,一片SDRAM的容量为64Mb,而一个片选空间只有32Mb,则需要占用2个连续的片选空间,所使用的CE空间必须是前2个或者后2个,在连接片选信号时只需要连接第一个片选信号即可。
本系统中SDRAM配置在CE2和CE3空间。
图3 SDRAM与EMIF的接口示意图
5.系统的控制显示部分
在说话人识别系统中,需要一个控制和显示部分,在系统运行中至少需要三个按钮,识别、训练和模板库的擦除按钮。另外,还需要把程序的运行状态和识别的结果实时的显示出来。
本系统利用CPLD产生各种逻辑功能,利用CPLD实现逻辑功能,可以减少甚至不用分立器件,这样可以大大提高系统的可靠性。CPLD的设计主要是利用CPLD对DIP按键、液晶显示器和状态指示灯进行控制。由于TMS320VC5502的I/O管脚和各种特殊功能是复用的,所以当DSP进行取数操作时,这样并不会影响到整个系统的运行速度。
6.结束语
以上详细介绍了系统的各部分硬件设计及实现。以TI公司的TMS320VC5502处理器作为系统开发的平台,在此基础上,首先简要介绍了系统硬件总体设计思想以及给出了硬件系统模块图;其次就TMS320VC5502的特点和各部分结构进行了简要论述;最后详细论述了系统的各个模块的设计方案,在系统硬件实现方面,基于TI公司的TMS320VC5502处理器,对TMS320VC5502芯片的主要外设及特点进行了研究。随着越来越多的国家和企业在语音识别技术方面进行开发和深入研究,语音识别系统硬件研究将会有快速发展。
参考文献:
[1]胡 航.语音信号处理[M].哈尔滨:哈尔滨工业大学出版社,2000:73-79.
[2]张雄伟,陈亮,杨吉斌.现代语音处理技术及应用[M].北京:机械工业出版社,2003:19-111.
[3]蒋永生,张雄伟,曾宏辉.一种基于DSP的语音处理系统软硬件设计[J].2007,28(181):56-59.
[4]章圣焰.基于TMS320DM642的视频处理系统的硬件及驱动设计[D].上海:上海交通大学.
【关键词】语音识别;硬件;TMS320VC5502;DSP
前言
说话人识别技术近几年取得了快速的发展。现在大多数的移动手机可以整合有语音拨号功能。在通过电话网络用语音识别口语对话系统查询有关的机票、旅游、银行信息等语音服务人机交互方面等,已经取得很好的结果。本系统研究的目的就是不需要使用钥匙,仅依靠说话人的语音来控制门锁开启。此系统由按键输入(DIP)、语音信号采集、语音信号处理,存储器扩展以及LCD(液晶显示器)等几部分组成。其中按键输入部分用于向DSP发送控制命令(训练、识别和擦除);语音信号采集部分用于完成将模拟音频信号转换成数字信号;存储器扩展部分用来存储所需要的数据;LCD部分用于显示程序的运行状态和识别结果
1.系统的硬件结构
本文采用TMS320VC5502实现系统功能,硬件系统结构如图1所示。其中音频数据采集模块完成将模拟音频信号转换成数字信号,由音频编解码芯片(TLV320AIC23)完成,可通过I2C控制电路完成对它内部寄存器的配置。数据处理部分以TMS320VC5502 DSP芯片作为主处理器,主要完成对说话人语音特征参数的提取、VQ量化等。存储器模块包括SDRAM和FLASH两部分,其中SDRAM用来存储DSP处理过程中的数据,FLASH用来存储程序代码和训练的模板库。利用CPLD可以对DIP按键、液晶显示器(LCD)和状态指示灯(LED)进行控制。其中DIP按钮可向DSP板发送控制命令动作(识别、训练和模板擦除),程序的运行状态和识别结果可显示在LCD上。
图1 系统硬件结构图
2.处理器 TMS320VC5502的片内外设
2.1 I2C总线
I2C总线是英文 INTER IC BUS的简称,是同步通信的一种特殊形式,具有接口线少,控制方式简单,器件裝形式小,通信速率较高等优点。
I2C总线是由数据线SDA和时钟SCL构成的串行总线,可发送和接收数据。数据发送寄存器ICDXR、发送移位寄存器ICXSR、接收移位寄存器ICRSR和数据接收寄存器ICDRR负责SDA上串行数据的发送与接收;时钟同步器,用来同步I2C输入时钟(来自DSP时钟发生器)和SCL引脚上的时钟,还要同步不同频率主设备的数据传输;仲裁单元根据竞争检测的原则,I2C模块所有的数据均通过16位内部外设总线与DSP连接。
2.2 多通道缓冲串口
VC5502提供了3 个高速、全双工、多通道缓存串行口McBsp,每个串口可以支持 128 通道,速度达 100 Mb/s。McBsp是在标准串口基础上的功能扩展,与标准串口有相同的基本功能,能够与工业标准的串行 A/D(D/A)设备直接连接。
2.3 DMA控制器
DMA设置时,首先确定数据传输的源起始地址,之后再设定数据传输的长度。用于设定数据传输起始地址的DMA控制寄存器如下:
DMA_CSSA_L:源起始地址低段;
DMA_CSSA_U:源起始地址高段;
DMA_CDSA_L:目的起始地址低段;
DMA_CDSA_U:目的起始地址高段;
DMA以字节为单位在各种存储空间中访问,若给定的字地址,应形成字节地址。
2.4 音频数据采集模块的硬件设计
本系统的音频数据采集电路选用TI公司的音频编解码芯片TLV320AIC23B来完成,它使DSP可以处理模拟信号,DSP的I2C总线用于连接AIC23B的控制接口,MCBSP用于连接AIC23B的数据接口。通过软件设计可以选择线性输入或麦克风输入作为TLV320AIC23B的模拟输入,AIC23B的模拟输出可以同时输出到线性输出和耳机输出上。
3.音频数据采集模块的硬件设计
3.1 音频解码芯片TLV320AIC23B
TLV320AIC23是TI公司推出的一款高性能立体声音频编解码器,内置耳机输出放大器,支持mic和line in二选一的输入方式。输入和输出都具有可编程的增益调节功能。TLV320AIC23的模/数转换器(ADC)和数,模转换器(DAC)集成在芯片内部.采用先进的Σ一△过采样技术.可以在8kHz至96kHz的采样率下提供16bit、20bit、24bit和32bit的采样数据。ADC和DAC的输出信噪比分别可达90dB和100dB。同时。TLV320AIC23还具有很低的功耗(回放模式为23mW。节电模式为15μw)。上述优点使得TLV320AIC23成为一款非常理想的音频编解码器,与TI的DSP系列相配合更是相得益彰。因此,对于录音使用中的模拟输入输出和可移动的数字音频播放等应用系统,AIC23无疑是十分理想的选择。
3.2 TLV320AIC23B与DSP的连接
TLV320AIC23B与微处理器的接口有两个,一个是控制接口,用于设置AIC23B的工作参数,使用DSP的I2C总线进行AIC23B的配置。另一个是数字音频接口,用于将AIC23的ADC转换后的音频数据送往DSP。其接口原理图如“图2”所示。TLV320AIC的控制接口由、MODE、SDIN和SCLK构成。其中MODE接数字地,表示利用I2C控制接口对AIC23传输控制数据。CS接数字地,定义了在I2C总线上AIC23的7bit外设地址为“0011010”。四种模式中的DSP模式是专门设计用来与 TI公司的DSP的McBSP相兼容,因此在设计中经常被采用。 图2 TLV320AIC与VC5502接口原理图
4.外部存储器接口设计
4.1 TMS320VC5502存储器
C55X DSP对数据空间和程序空间进行统一编址,保留IO空间用于片内外设寄存器。由于一定的历史和技术原因,程序代码以8位的字节方式寻址,而数据是以16位的字方式寻址。程序和数据都可以分配在统一编址空间的任何位置。
C5502DSP的地址有24位,可以寻址的最大存储空间位16M字节或8M字节。外部存储器接口(EMIF)把存储空间分为大小相同的四个部分,每个部分提供一个外部片选信号。
4.2 外部存储器接口
C55的外部存储器接口除了对异步存储器的支持以外,还提供对同步动态存储器(SDRAM)和同步突发静态存储器(SBSRAM)的支持。
4.3 SDRAM电路的设计
在说话人识别系统中,由于处理语音数据的量十分庞大,而DSP的内部存储器又远不能满足需求,为了使系统能够及时、完整地处理前端采集的数据,故采用 DSP和大容量缓冲存储器相连。同步动态随机存储器(SDRAM)具有高速、大容量、价格低廉等优点,因而成为缓冲存储器的首选。
TMS320VC55x外部存储器接口支持16位、32位宽,64Mb和128Mb SDRAM。本系统中SDRAM采用Micron公司的MT48LC2M32B2,该器件是一款高速COMS電平的同步动态RAM,存储容量为64Mbit(512Kx32x4 banks)。“图3”给出了SDRAM与EMIF的接口示意图。
“图3”中,一片SDRAM的容量为64Mb,而一个片选空间只有32Mb,则需要占用2个连续的片选空间,所使用的CE空间必须是前2个或者后2个,在连接片选信号时只需要连接第一个片选信号即可。
本系统中SDRAM配置在CE2和CE3空间。
图3 SDRAM与EMIF的接口示意图
5.系统的控制显示部分
在说话人识别系统中,需要一个控制和显示部分,在系统运行中至少需要三个按钮,识别、训练和模板库的擦除按钮。另外,还需要把程序的运行状态和识别的结果实时的显示出来。
本系统利用CPLD产生各种逻辑功能,利用CPLD实现逻辑功能,可以减少甚至不用分立器件,这样可以大大提高系统的可靠性。CPLD的设计主要是利用CPLD对DIP按键、液晶显示器和状态指示灯进行控制。由于TMS320VC5502的I/O管脚和各种特殊功能是复用的,所以当DSP进行取数操作时,这样并不会影响到整个系统的运行速度。
6.结束语
以上详细介绍了系统的各部分硬件设计及实现。以TI公司的TMS320VC5502处理器作为系统开发的平台,在此基础上,首先简要介绍了系统硬件总体设计思想以及给出了硬件系统模块图;其次就TMS320VC5502的特点和各部分结构进行了简要论述;最后详细论述了系统的各个模块的设计方案,在系统硬件实现方面,基于TI公司的TMS320VC5502处理器,对TMS320VC5502芯片的主要外设及特点进行了研究。随着越来越多的国家和企业在语音识别技术方面进行开发和深入研究,语音识别系统硬件研究将会有快速发展。
参考文献:
[1]胡 航.语音信号处理[M].哈尔滨:哈尔滨工业大学出版社,2000:73-79.
[2]张雄伟,陈亮,杨吉斌.现代语音处理技术及应用[M].北京:机械工业出版社,2003:19-111.
[3]蒋永生,张雄伟,曾宏辉.一种基于DSP的语音处理系统软硬件设计[J].2007,28(181):56-59.
[4]章圣焰.基于TMS320DM642的视频处理系统的硬件及驱动设计[D].上海:上海交通大学.