基于声韵拼接的中文孤立词语音识别方法的研究

来源 :中国信息化·学术版 | 被引量 : 0次 | 上传用户:made5215210
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  [摘要]本文提出了一种基于HTK搭建的中文孤立词语音识别系统的方法,系统采用中文特有的声韵拼接结构作为建模基元,通过频谱归一化处理(Cepstral Mean Normalization,CMN)之后一定程度上提升了识别准确度,并且结合三音素(Triphones)的状态绑定(Tied-State)策略又给出一种词表的自动更新过程,可以针对任意给定的词表做识别,在一定程度上实现了识别词表的可定制性。
  [关键词]语音识别;频谱归一化;三音素;状态绑定;
  [中图分类号]G71 [文献标识码]A [文章编号]1672-5158(2013)06-0325-02
  目前,现已发行的HTK稳定版是3.4。本系统即是在其基础上来搭建。可以方便有效的建立及操作HMM。HMM已经被广泛地应用在了诸多的科研领域,比如AI(Artificial Intelligence,人工智能)和生物工程,HTK也主要针对智能语音技术的应用及研究而设计。
  本系统是针对所有的中文词汇能够做识别,这种识别过程是基于三音素(Triphone)的自动拼接过程,因此,我们设计了一个词库,包含403个中文词汇,覆盖了所有的声韵拼接,并且我们借助HTK的辅助录音工具来采集足够的语音数据用于模型训练。此外,为能够使得识别系统能够针对不同的采样率做识别,又特别加入了一种采用率下采样(Downsampling)自动转换机制,以使得系统能够针对待识别语音做采用率自动转换识别的功能。
  1 声韵母基元
  1.1 模型基元定义
  模型识别基元的选择对于语音识别率以及训练数据量的大小都有较大的影响。音素(Phoneme)、声韵母(Initial/Final)、音节(Syllable)、整词(Word)都是中文语音识别中常用到的建模单元,汉语中有409个无调音节和1300多个有调音节。
  采用声韵母建立声学模型是相对比较合适的,特别说明本文中使用的问题集是基于语音学知识的。基于音素(Phoneme)的语音识别已经被广泛地应用在英文识别中并且取得了很好的识别性能。本文所采用的基元集是由37个韵母,24个声母和1个静音模型共同组成,参见(表1):
  2 基于Triphones模型的自动拼词识别机制实现
  2.1 原理介绍
  首先解码原始音频数据进行识别,得到初步的单音素以及前后阶音素的关系,然后依据得到的这种上下文依赖关系,查找其对应的映射文件,进而确定相应的三音素模型。再根据这种声韵拼接信息,通过查找Triphone模型的上下文相关模型映射文件生成了最终的全词匹配结果。
  2.2 实现过程
  该模块旨在实现待识别词汇表的自动更新识别功能。整个识别过程是不需要重新训练的。之前已经完成了汉字转拼音的转换程序,在此基础之上又进—步实现了系统自动拼词的机制。其目的在于允许用户传送词汇表(并不在训练集当中),自动做拼接识别。
  处理结束后,还要调用自动映射处理模块将用户传过来的新词汇表映射到已存在的词表当中,并相应的标出汉语,以便于在反馈用户结果的时候将拼音对应的汉语一并反馈给用户(图1)。
  3 HTK上实现Downsampling自动转换机制
  3.1 原理介绍
  通过修改功能模块,我们将SSRC自动采样率的转换功能嵌套在HTK当中,实现了下采样的自动转换功能,前端采样自动检测准确与否,直接影响到语音识别系统的识别性能。
  3.2 实现方法
  该模块提供一种采样速率自动转换机制,用于提高最终的语音识别率。首先,我们需要引入一个新的开源工具包SSRC,其功能是实现采样率的自动转换。通过做SSRC使测试语音与训练时语音采样速率保持一致,也是优化识别系统整体识别性能的一种方法,进一步减少因为采样率不一致而导致的误识率(图2)。
  整体的采样率自动转换功能模块参照下面步骤运行:
  对从客户端采集到的声音文件进行初步的判断,采样率是否满足系统的要求,如果上图第一次判断走了“NO”分支,要接着进行SSRC的采样率自动转换,统一将从客户端采集到的声音文件的采样率标准化;然后,抽取相应的Mel频谱参数(MFCC),再将特征参数传人识别系统的核心模块Recognizer,得到识别结果。
  4 实验结果
  本实验采用的训练数据是由12个人借助HTK录音工具共同录制的包含4200个词条的语音库。测试数据集是由三个人采用平板电脑录制的30个连续发音词条(每人10条)。然后又通过CoolEdit工具[9]将其手工切分为彼此分离开来的词条,即每一个单独的词汇保存与一个独立的WAV文件中,然后对所有这些WAV片段做识别(表2)。
  由上面结果容易看出,CMN可以大大提升识别系统的识别性能。倒谱均值归一化算法(CMN)对于语音识别系统抗噪声性能的提高十分有效。接下来,我们将测试语音经过SSRC做采样率自动转换,都同一转换为16KHz,然后将录音测试词(2/3)加入训练集。剩余1/3做集外测试,并重估参数,得出的实验结果如(表3):
  ①在未将测试词加入训练集,并作CMN,SSRC:识别结果18/28=68%
  ②将测试词加入训练集,并作CMN,SSRC处理:识别结果20/28=71%
  ③将测试词加入训练集,并作CMN处理,采样率按照初始(44100HZ),未作SSRc处理:识别结果很低,基本不能识别。另外,以上是针对原始音频格式wAV所做的识别结果。而对于3GPP音频文件的识别结果准确度却比较低(图4):
  由以上实验结果可以看出,本识别系统对于3gpp格式的媒体文件尚不能够有很好的识别率,因此,综上所述本系统目前对3GPP格式的识别相对较低(39%),而对WAV格式的音频支持相对较好(71%)。
  5 结束语
  本文依照中文发音的特性,选取了扩展的声韵母基元XIF作为识别基元,问题集的设计也建立在当今中文语音学知识体系架构之上,再结合基于Triphones的模型训练,得到了一个可以自动按照中文声韵拼接规则对任意词汇做识别,与其它识别基元作对比。借助决策树以Triphones模型来共同搭建语音识别系统,能够有效地降低其对于识别阶段所带来的负面影响,并且提升了识别器对于识别环境的鲁棒性。
其他文献
我厂生产的井冈山-27型载重汽车,按原设计,其前轴是用30Cr钢锻造的。由于我厂没有这种大型锻压设备,故改为铸钢前轴。伟大领袖毛主席教导我们说:“在生产斗争和科学实验范围
各位编辑们,大家好!今天偶然看到《幸福·婚典》这本新杂志,让我眼前一亮。它跟一般的时尚刊物很不一样,没有那么多空洞的大片或者广告,里面的文章温馨、有趣,非常适合工作一
患儿男性、21/2岁,住院号58701,因尿频、尿呈茶色五天入院。住院后观察:患儿呈阵发性肉眼样全程血尿、无血块,每日1-2次,多于下午出现。每日尿次10-15次,尿量300-600毫升/日
目的通过对广州地区登革热媒介白纹伊蚊进行携带登革热病毒情况的调查,从传播媒介的角度探索该地区登革热流行的来源和特点。方法采集广州市各区新旧疫点附近的白纹伊蚊幼虫
近日,濮阳市市长梁铁虎要求濮阳调查队要紧紧围绕全市中心工作和社会各界高度关注的小麦苗情、农田旱情和返乡农民工等热点问题,深入开展调查研究,为推动濮阳经济社会平稳较
电能计量装置是电贸易结算的重要设备,通过技术改造提升其防窃电性能很有必要,但通过改造提升其防窃电性能的同时还应注意采取措施提升其计量准确性和安全可靠性,以整体提高
期刊
唐太宗的皇后长孙氏是一位聪明、贤明且有趣的贤后。她挂在嘴上的话是:“妾以妇人,岂敢豫闻政事?”其实,她这是打着不干涉朝政的旗号干涉朝政,是优雅、温柔地干涉朝政,是最会
1概述多年以来,对田径场弯道分道跑的起点线多数沿用“一点”划线法进行划线,其划线方法是,通过基准点向外侧各分道线放射,然后由放射线与分道线的交点再向外侧分道线划一直线.这
该平面磨头结构简单(见图)。壳体8是铸铁件,内装210向心滚珠轴承两个和8211推力轴承一个。心轴5粗车后同上夹板13焊成一体再精车,以保证心轴中心线同夹板平面垂直,使砂轮运转
1、氮素缺乏症菜豆缺氮表现为植株长势弱,叶片薄且瘦小,新叶叶色淡绿,老叶叶片黄化,易脱落,豆荚发育不良,弯曲,不饱满。出现缺氮状时,及时施用氮肥,每667平方米追施尿素15千