基于HMM和匹配追踪的多参数语音识别

来源 :电子世界 | 被引量 : 0次 | 上传用户:meteorwei66
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  【摘要】本文提出了一种基于HMM和匹配追踪的多参数语音识别新算法。首先构建局部余弦基表示语音信号,对其进行匹配追踪(MP)分解。然后,应用改进后的算法对语音信号进行特征提取,得到余弦基原子参数和魏格纳-维利(WVD)分布,并结合语音信号的美尔频率倒谱系数(MFCC)一起作为该信号的特征向量,通过隐马尔科夫模型(HMM)进行识别。最后通过实验验证了方法的有效性,仿真实验表明,改进后的多参数语音识别算法比仅使用MFCC作为特征向量的HMM算法,提高了语音识别的速度和准确度。
  【关键词】最佳基;匹配追踪;HMM;语音识别
  1.引言
  语音识别的研究工作始于20世纪50年代,1952年Bell实验室开发的Audry系统是第一个可以识别10个英文数字的语音识别系统。隐马尔可夫模型是20世纪70年代引入语音识别理论的,它的出现使得自然语音识别系统取得了实质性的突破。目前大多数连续语音的非特定人语音识别系统都是基于HMM模型的。[1]
  一般来说,语音识别的方法有三种:基于声道模型和语音知识的方法、模板匹配的方法以及利用人工神经网络的方法。语音识别一个根本的问题是合理的选用特征。特征参数提取的目的是对语音信号进行分析处理,去掉与语音识别无关的冗余信息,获得影响语音识别的重要信息,同时对语音信号进行压缩。非特定人语音识别系统一般侧重提取反映语义的特征参数,尽量去除说话人的个人信息;而特定人语音识别系统则希望在提取反映语义的特征参数的同时,尽量也包含说话人的个人信息。
  而随着时频技术的研究发展,使人们在进行信号处理时,可以将语音信号分解在一组完备的正交基上。从而,语音信号的能量在分解以后将分散分布在不同的基上。但是,语音信号是一种典型的非平稳信号,其性质随时间快速变化,在两个不同的时间瞬间,在同一个频率邻域内,信号可以有完全不同的能量分布。因此,有必要找到一种精确表示语音信号时频结构,便于特征提取的方法。[2]
  立足于此,本文提出,通过平移窗口,用余弦基乘以窗口函数,构造出局部余弦基,分离不同时间区间,很适合于逼近语音信号。本文使用这种具有活动窗口特性的局部余弦基表示语音信号。为了减少计算量,并进一步提高局部余弦基原子时频分布的分辨率,采用匹配追踪(MP)算法分解信号,并结合时频分析技术得到最优局部余弦基原子的魏格纳-维利分布(WVD)[2],从而得到信号精确的时频结构[3],进行特征提取。此外,结合语音信号的美尔频率倒谱系数(MFCC)一起作为该信号的特征向量,通过隐马尔科夫(HMM)模型进行识别。实验证明。这种多参数语音识别算法提高了识别的准确度和速度。
  2.局部余弦基建模
  通过光滑地划分时间序列为任意长度的子区间(如图1),可使每一个时间段分别由重叠正交基表示,而整个时间序列的基函数又构成时频平面的正交铺叠,因此局部余弦变换对在不同时间段有不同的波形的语音信号有很强的针对性。
  图1 重叠窗口划分时间轴
  Figure1 lapped window divides time axis
  图1中为重叠窗口函数[3]:
  (1)
  式中为单调递增的轮廓函数,定义为[3]:
  (2)
  局部余弦函数族构成了实数轴上平方可积函数空间的规范正交基:
  (3)
  式中为窗口支集伸缩参数;为第P段时间起点;n()表示正交基序列号。
  语音信号可表示为:
  (4)
  是余弦基原子,。其中是窗口支集边界参数,为窗口支集伸缩参数,是轮廓函数的尺度参数,这保证了窗口支集只与相邻的具有适当对称性的窗口重合,达到局部余弦基精确覆盖整个时频平面的目的。
  3.匹配追踪法选取最佳基
  由Mallat和Zhang引入的匹配追踪算法运用贪婪技巧减少了计算的复杂性。它从局部余弦基构成的冗余字典中一个一个挑选向量,每一步都使信号的逼近更为优化。
  MP算法将信号分解成一簇时频原子的线性表达,这些原子选自高冗余度的函数字典中,且最好地符合内在结构。假设函数集是Hilbert空间中一个完备字典,满足,最优的M阶近似为:
  (5)
  设由M个时频函数近似的信号与的误差最小,表达式如下:
  (6)
  其中代表所选函数的索引。
  首先按照某个选择函数(与的内积最大)逐个挑选出时频函数,分解为:,设初始输入信号为初始残差信号,表示f(t)在方向上近似后的冗余部分。
  假设已有表示经过前M-1次迭代后,中未表达部分:选定为最匹配的时频函数,按如下公式分解为:
  (7)
  由于每步中与正交,如果字典是完备的,则迭代收敛于f,满足:
  (8)
  这样,可估算出(4)式中局部余弦基原子的参数。
  文献[4]中提出,选出最匹配信号的基,对每一个基求出其WVD分布,信号的WVD分布就表示其最优基的WVD的线性组合,这样就消除了交叉项的影响。由此得到的WVD分布:
  (9)
  是局部余弦基字典中被选中的最优基的WVD分布。将等式左边第二项交叉项组合去除,这样在时频面上就得到了干净的时频表示:
  (10)
  在语音信号稀疏分解过程中,每步分解都要从过完备原子库中选出与待分解语音信号或语音信号分解残余最为匹配的原子,原子是由参数公式(4)决定的。因此语音信号稀疏分解所得原子的参数可作为语音信号的特征。此外,根据公式(10),使用匹配追踪法选取的最佳基的WVD分布,含有该语音信号重要且独特的信息,也可作为该语音信号的特征。
  4.基于HMM的语音识别算法   特征提取基于语音帧,即将语音信号分为有重叠的若干帧,对每一帧提取一次语音特片。由于语音特征的短时平稳性,帧长一般选取20ms左右。在分帧时,前一帧和后一帧的一部分是重叠的,用来体现相邻两帧数据之间的相关性,通常帧移为帧长1/2。本文为了方便做MP,采用的帧长为512点(32ms),帧移为256点(16ms)。特征的选择需要综合考虑存储量的限制和识别性能的要求。通常的语音识别系统使用24维特征矢量,包括12维MFCC和12维一阶差分MFCC。本文提出的多参数语音识别算法,在此基础上增加了原子参数公式(4)和最佳基的WVD分布公式(10),这两维特征,构成26维特征矢量。对MFCC和语音信号能量的WVD分布分别使用了倒谱均值减CMS(Ceps-trum Mean Subtraction)和能量归一化ENM(Energy Normalization)的处理方法提高特征的稳健性[5]。
  在HMM模型中,首先定义了一系列有限的状态S1,…,SN,系统在每一个离散时刻n只能处在这些状态当中的某一个Xn。在时间起点n=0时刻,系统依初始概率矢量π处在某一个状态中,即:
  (11)
  以后的每一个时刻n,系统所处的状态Xn仅与前一时刻系统的状态有关,并且依转移概率矩阵A跳转,即:
  (12)
  且满足:
  (13)
  系统在任何时刻n所处的状态Xn隐藏在系统内部,并不为外界所见,外界只能得到系统在该状态下提供的一个Rq空间随机观察矢量On。On的分布P称为输出概率矩阵,只取决于On所处状态:
  (14)
  因为该系统的状态不为外界所见,因此称之为“隐含马尔科夫模型”,简称HMM。在识别中使用的随机观察矢量就是从信号中提取的特征矢量。按照随机矢量Qn的概率分布形时,其概率密度函数一般使用混合高斯分布拟合。
  (15)
  其中,M为使用的混合高斯分布的阶数;Cm为各阶高斯分布的加权系数。此时的HMM模型为连续HMM模型(Continuous density HMM),简称CHMM模型[6]。在本识别系统中,采用孤立词模型,每个词条7个状态,同时包括首尾各一个静音状态;每个状态使用3阶混合高斯分布拟合。
  5.仿真实验
  5.1 提取最佳基的WVD分布特征矢量
  构建局部余弦基字典,使用MP算法选取语音信号“A”的最佳基。如图2所示。得到的时频图既保留了余弦基原子高时频聚集性的优点,又削弱了WVD作为二次型时频表示所固有的交叉项的影响,得到了干净的时频面。其结果更精确的反映出语音信号在频率、音强方面的特征,具有良好的时频聚集性。
  图2 “A“信号的WVD分布
  Figure2 WVD of“A”
  5.2 孤立词识别
  在语音识别实验中,采用信号长度为1024的200个实际语音信号样本,其中100个用于训练,100个用于测试。该实验用以识别出语音信号”A”。实验利用WaveCN2.0录音系统进行样本采集,采样率为8kHz。得到语音信号的有效部分后,提取样本信号的MFCC参数作为语音信号的特征参数之一。Mel滤波器的阶数为24,fft变换的长度为256,采样频率为8kHz。MFCC的相关波形见图3。
  图3 “A“信号的MFCC波形
  Figure3 MFCC Waveform of“A”
  然后利用MP算法将样本信号分解为300个原子,将所得原子的参数和最佳基的WVD分布,作为该语音信号的特征参数之二。见图2。通过HMM进行识别。
  在实验中,设语音”A”类值为1,其他的语音类值为-1。HMM模型的状态数为7,高斯混合数为3。由第4节HMM训练的定义可知,重估过程中的输出概率是随着重估次数的递增而增加的,图4列出了“A”模型训练期间重估次数与总和输出概率的log值之间的关系。由图可以看出,“A”模型重估20次算法收敛,并且,输出概率与重估次数成正比趋势。
  图4 重估次数与总和输出概率
  Figure4 Iterations of EM and output like lihood
  对语音进行上述HMM训练之后,将其模型参数存贮,获得了识别的HMM模型库。在识别阶段,对100个测试用数据进行语音识别,以检验本文系统的识别效果。如表1所示识别精度为89%,平均识别时间约为1.313秒,实验结果表明,系统识别率和运算速度都比较理想。
  表1 识别结果
  语音类型 识别次数 识别结果 识别精度
  A 其它
  A 100 92 8 92%
  增加了局部余弦基原子的参数和最佳基的WVD分布作为特征参数,较单纯的使用MFCC作为特征参数进行HMM模型训练,识别率有一定提高,见表2。
  表2 结果比较
  特征参数 识别率%
  MFCC、和特征参数 92
  MFCC 89.5
  6.结语
  本文在传统基于HMM模型的语音识别基础上,通过匹配追踪算法,提取出最佳基的原子参数和WVD分布。二者与MFCC一起,作为本文提出的多参数语音识别算法的特征向量。然后选择了大量孤立词样本进行仿真实验,针对非特定人孤立词进行语音识别。结果表明,基于HMM和匹配追踪的多参数语音识别算法,可提高语音识别的速度和准确度,有一定的实用性。但是,由于算法的复杂性增加,运算量相应增大,简化算法运算量仍是需要深入研究的课题。
  参考文献
  [1]何方伟,青木由直.DP动态匹配算法实现语音的实时识别[J].数据采集与处理,vol.4,no.1,Mar,1989.
  [2]R.R.Coifman,M.V.Wickerhauser.Entropy-based algorithms for best basis selection[J].IEEE Trans.Info.Theory,38(2):713-718,March 1992.
  [3]S Mallat,Z Zhang.Matching Pursuit with Time-Frequency Dictionaries[J].IEEE Trans.Signal Processing,1993,41(12):3397-3415.
  [4]R Gribonval.Fast matching pursuit with a multiscale dictionary of Gaussian Chirps[J].IEEE Trans.Signal Processing,2001,49(5):994-1001.
  [5]于建潮,张瑞林.基于MFCC 和LPCC的说话人识别[J].计算机工程与设计,2009,30(5):1189-1191.
  [6]王作英,肖熙.基于段长分布的HMM语音识别模型[J].电子学报,2004,vol.32,no.1:46-49.
其他文献
目的研究雷公藤红素对紫杉醇耐药乳腺癌细胞生长的作用及其机制。方法用MTT法检测雷公藤红素对紫杉醇耐药MCF-7/TAX细胞生长的影响;Annexin V-FITC/PI染色检测雷公藤红素对MC
配电网调控是配电网运行的指挥机构,担负着配电网生产运行的组织、指挥、指导和协调工作。如何最大程度地防范调控运行隐患,充分发挥配电网调控管理的职能显得极为重要和迫切。
煤矿安全生产监控系统是煤矿安全生产的关键性设施设备,其生产和检验均应符合国家安全生产标准《煤矿安全生产监控系统通用技术要求》(AQ6201-2006)和《煤矿监控系统主要性能测
采用316L不锈钢在Q235A基板上进行TIG填丝增材制造成形试验,研究不锈钢增材制造成形工艺,分析不锈钢增材制造成形件的显微组织。结果表明:通过调整焊接电流、打印速度、送丝速度
我国经济在飞速发展的同时,我国的道路工程也变得越来越多,人们对道路的质量要求也越来越高。如果道路工程的质量不过关,就势必会影响民众出行的安全和方便,现在的一些道路工
例1,患者,女,46岁,因阴道不规则流血15 d,于2002年3月17日入院.既往身体健康,月经规律,孕3产2.查体:重度贫血貌,心肺腹无异常.
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
基于1993-2012年河北省高等教育、GDP、产业结构变动等变量数据,根据协整理论、VEC模型、Granger因果检验理论,考察河北省高等教育与经济增长、产业结构变动之间的动态关系.
在当前的小学数学教学中,提升课后作业的有效性值得广大教师来共同研究,优化课后作业设计有助于激发学生学习数学的兴趣,增强学生课后对知识的巩固,并提升学生运用知识解决问
社会创业正日益成为我国创业活动的重要组成部分,研究社会创业企业在资源高度匮乏情境下的资源拼凑行为对丰富与拓展社会创业和资源拼凑理论研究具有重要意义。选取8家社会创