论文部分内容阅读
【摘要】普通话水平测试是践行“推广普通话”这一基本国策的重要手段。随着技术革新,传统的“人工测试”转变到由计算机进行辅助测试的方式。语言识别技术以及语言评测技术的应用,是不断推动普通话水平测试走向成熟的关键。
【关键词】语音识别技术 语音评测技术
【中图分类号】G65 【文献标识码】A 【文章编号】2095-3089(2017)18-0215-01
经过20多年的发展,现今的普通话测试是通过计算机辅助测试的方式来完成的,主要在其中运用了语音识别技术以及语音合成技术,但是采用的测试系统是科大讯飞公司生产的测试系统。
一、语音识别技术的基本概述
1.预处理
因为应试人员输入到测试系统中的是一些计算机没有办法识别的模拟信号,所以在计算机对信号进行处理之前,必须把模拟信号转化为数字信号。这就是预处理的作用,预处理包括预滤波、预加重、采样和量化等步骤。
预滤波的主要作用是防止采样频率出现混叠干扰,同样可以对电源工频干扰进行抑制。
预加重是针对采样部分高频信号来进行的,主要就是为了提高高频部分语音信号的分辨率,同时对发声过程中声带以及嘴唇的干扰进行消除,使得高频的共振峰更加突出。普通话水平测试系统中预加重的工作是通过一阶高通滤波器来完成的。
采样和量化是通过A/D转换器来完成的,在每个周期之内,A/D转换器都会测量以及量化信号各一次。这样声音信号就会转变为数字音频信号。在模拟信号向数字信号转换之前,首先需要对模拟信号波形进行分割,其实这就是采样的本质。具体来说,是在采样周期之内模拟信号的波形上取一个幅度值,这样原本连续的模拟信号就会变为离散信号。采样周期的倒数为采样频率,在采样频率高于声音信号的最高频率的2倍时,数学信号所表示的声音才能够被准确的还原,这是实际采样过程中的一个难点。采样结束之后,声音音量的大小还会受到声波幅度电压值大小的影响,而对该数值的数字化表示,就是“量化”。量化首先要做的是对整个声波幅度进行划分,之后对区段内的值进行分类,然后用同一量化值进行赋值计算。对声波幅度的划分是按照2进制的方式来完成的。
2.特征参数的提取
语音识别系统中特征参数的提取是用梅尔倒谱系数来完成的(简称MFCC),该系数具有良好的抗噪音能力以及识别能力。
MFCC的提取是按照以下步骤来完成的:首先求Mel标准刻度,Mel标准刻度能够描述人耳频率的非线性特征。是通过处理之后的语音频率来计算的,Mel标准刻度的单位为HZ。其次进行FFT操作,因为通常情况下很难根据信号本身的变化特征分析出信号时域上的变化特征。为了操作的准确性,我们通常用信号频域上的能量变化来代替信号时域上的变化,不同的能量变化特征能够代表语音信号本身的特征。因此如果我们将分帧之后的语音信号加上Hanmming窗,还应该对每帧信号进行FFT操作。这样就能够获得信号在频谱上的能量分布,语音信号的功率谱也是在这个基础上计算得来的。然后需要进行的是三角带通滤波器滤波,要求每个滤波器组输出信号对数能量的准确值。在这里需要说明,MFCC并不受输入信号的音高等因素的影响,所以说以MFCC为特征的语言识别系统,即当前普通话水平测试之中所采用的系统也不会受到输入语音音高等因素的影响。借助于三角带通滤波器,我们就能够对声音频谱进行平滑化处理,而且还能够消除谐波的作用,突显原本声音信号的共振峰。测试系统所采用的三角形濾波器,每个顶点与相邻滤波器的起点以及终点都能够做到重合,这样相邻两个滤波器之间就会出现重叠区域。然后对滤波之后的信号进行计算,就能够求出滤波器组输出的对数能量和倒谱系数。
二、语音评测技术的基本概述
1.工作原理
这项技术运作首先要做的是从发音资料库中对标准语音资料进行特征提取,分析其中的显著特征。之后要做的是对大量的非标准发音资料进行特征提取。然后对提取的这两部分发音材料进行分析,系统自动生成一套完整的评分规则。最后才能够对待测的语音资料进行分析,从而得出一个相对直观、准确的评分。当前语音评测技术是普通话水平测试系统中最常用的技术。
2.语音评测技术在汉语评测中的应用
语音评测技术已经能够实现对用户输入的语音进行全部接收,所以说它已经使得说话过程变的非常积极了,这也是将这项技术运用到普通话测试之中的重要原因之一。应用这项技术最关键的一个作用就是对说话者的语音进行反馈,要实现这一目标需要建立起完备的语音语料库,这需要对大量的标准语音以及非标准语音进行分析。虽然说这一技术的存在我们已经实现了对于语音的自动评测,但是目前所用的评分系统对于句子层的敏感度较低,而且评测的内容必须是已经被收录在系统之内的问题并没有被解决。
对于汉语语音的识别是借助HTK平台来实现的,因为汉语的特殊性,为了提高识别的准确度我们建立起了孤立词语音识别系统,对照标准发音模板而进行的特征比较,评测遵循的是发音与模板相似性越高分越高的原则。而相似性比较的参数有能量、基频以及MFCC参数等等。
参考文献:
[1]周晓兰. 计算机辅助普通话水平测试中的语音识别技术探讨[J]. 农村经济与科技,2016,(22):240-241.
[2]周晓兰. 普通话水平测试系统中语音识别和语音评测技术研究[J]. 中外企业家,2016,(29):265-266.
[3]万济萍,刘子菡,王玥,刘婉姬,张清涛,辛杰. 基于语音识别技术口语自动评测的专利分析[J]. 电声技术,2012,(S1):53-56.
【关键词】语音识别技术 语音评测技术
【中图分类号】G65 【文献标识码】A 【文章编号】2095-3089(2017)18-0215-01
经过20多年的发展,现今的普通话测试是通过计算机辅助测试的方式来完成的,主要在其中运用了语音识别技术以及语音合成技术,但是采用的测试系统是科大讯飞公司生产的测试系统。
一、语音识别技术的基本概述
1.预处理
因为应试人员输入到测试系统中的是一些计算机没有办法识别的模拟信号,所以在计算机对信号进行处理之前,必须把模拟信号转化为数字信号。这就是预处理的作用,预处理包括预滤波、预加重、采样和量化等步骤。
预滤波的主要作用是防止采样频率出现混叠干扰,同样可以对电源工频干扰进行抑制。
预加重是针对采样部分高频信号来进行的,主要就是为了提高高频部分语音信号的分辨率,同时对发声过程中声带以及嘴唇的干扰进行消除,使得高频的共振峰更加突出。普通话水平测试系统中预加重的工作是通过一阶高通滤波器来完成的。
采样和量化是通过A/D转换器来完成的,在每个周期之内,A/D转换器都会测量以及量化信号各一次。这样声音信号就会转变为数字音频信号。在模拟信号向数字信号转换之前,首先需要对模拟信号波形进行分割,其实这就是采样的本质。具体来说,是在采样周期之内模拟信号的波形上取一个幅度值,这样原本连续的模拟信号就会变为离散信号。采样周期的倒数为采样频率,在采样频率高于声音信号的最高频率的2倍时,数学信号所表示的声音才能够被准确的还原,这是实际采样过程中的一个难点。采样结束之后,声音音量的大小还会受到声波幅度电压值大小的影响,而对该数值的数字化表示,就是“量化”。量化首先要做的是对整个声波幅度进行划分,之后对区段内的值进行分类,然后用同一量化值进行赋值计算。对声波幅度的划分是按照2进制的方式来完成的。
2.特征参数的提取
语音识别系统中特征参数的提取是用梅尔倒谱系数来完成的(简称MFCC),该系数具有良好的抗噪音能力以及识别能力。
MFCC的提取是按照以下步骤来完成的:首先求Mel标准刻度,Mel标准刻度能够描述人耳频率的非线性特征。是通过处理之后的语音频率来计算的,Mel标准刻度的单位为HZ。其次进行FFT操作,因为通常情况下很难根据信号本身的变化特征分析出信号时域上的变化特征。为了操作的准确性,我们通常用信号频域上的能量变化来代替信号时域上的变化,不同的能量变化特征能够代表语音信号本身的特征。因此如果我们将分帧之后的语音信号加上Hanmming窗,还应该对每帧信号进行FFT操作。这样就能够获得信号在频谱上的能量分布,语音信号的功率谱也是在这个基础上计算得来的。然后需要进行的是三角带通滤波器滤波,要求每个滤波器组输出信号对数能量的准确值。在这里需要说明,MFCC并不受输入信号的音高等因素的影响,所以说以MFCC为特征的语言识别系统,即当前普通话水平测试之中所采用的系统也不会受到输入语音音高等因素的影响。借助于三角带通滤波器,我们就能够对声音频谱进行平滑化处理,而且还能够消除谐波的作用,突显原本声音信号的共振峰。测试系统所采用的三角形濾波器,每个顶点与相邻滤波器的起点以及终点都能够做到重合,这样相邻两个滤波器之间就会出现重叠区域。然后对滤波之后的信号进行计算,就能够求出滤波器组输出的对数能量和倒谱系数。
二、语音评测技术的基本概述
1.工作原理
这项技术运作首先要做的是从发音资料库中对标准语音资料进行特征提取,分析其中的显著特征。之后要做的是对大量的非标准发音资料进行特征提取。然后对提取的这两部分发音材料进行分析,系统自动生成一套完整的评分规则。最后才能够对待测的语音资料进行分析,从而得出一个相对直观、准确的评分。当前语音评测技术是普通话水平测试系统中最常用的技术。
2.语音评测技术在汉语评测中的应用
语音评测技术已经能够实现对用户输入的语音进行全部接收,所以说它已经使得说话过程变的非常积极了,这也是将这项技术运用到普通话测试之中的重要原因之一。应用这项技术最关键的一个作用就是对说话者的语音进行反馈,要实现这一目标需要建立起完备的语音语料库,这需要对大量的标准语音以及非标准语音进行分析。虽然说这一技术的存在我们已经实现了对于语音的自动评测,但是目前所用的评分系统对于句子层的敏感度较低,而且评测的内容必须是已经被收录在系统之内的问题并没有被解决。
对于汉语语音的识别是借助HTK平台来实现的,因为汉语的特殊性,为了提高识别的准确度我们建立起了孤立词语音识别系统,对照标准发音模板而进行的特征比较,评测遵循的是发音与模板相似性越高分越高的原则。而相似性比较的参数有能量、基频以及MFCC参数等等。
参考文献:
[1]周晓兰. 计算机辅助普通话水平测试中的语音识别技术探讨[J]. 农村经济与科技,2016,(22):240-241.
[2]周晓兰. 普通话水平测试系统中语音识别和语音评测技术研究[J]. 中外企业家,2016,(29):265-266.
[3]万济萍,刘子菡,王玥,刘婉姬,张清涛,辛杰. 基于语音识别技术口语自动评测的专利分析[J]. 电声技术,2012,(S1):53-56.