基于HMM的维吾尔语连续语音识别系统

来源 :第二届全国少数民族青年自然语言处理学术研讨会 | 被引量 : 0次 | 上传用户:fh1130
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
维吾尔语是黏着性语言,利用丰富的词缀可以用同样的词干产生超大词汇,给维吾尔语语音识别的研究工作带来了很大困难。本文结合维吾尔语自身特点,建立了维吾尔语连续语音语料库,利用HTK(HMMToolKit)工具实现了基于HMM(Hidden Markov Model)的维吾尔语连续语音识别系统。在声学层,选取三音子作为基本的识别单元,建立了维吾尔语的三音子声学模型,并使用决策树、三音子绑定、修补哑音、增加高斯混合分量等方法提高模型的识别精度。在语言层,使用了适合于维吾尔语语音特征的基于统计的二元文法语言模型。最后,利用该系统进行了大量的识别实验。
其他文献
随着国际社会对海洋环境保护的日趋严格,近些年来人们意识到;以往国际防污公约中尚未涉及的、有关船舶压载水中的外来水生物的生物侵害对海洋环境造成的严重伤害已不容低估。
1  1 999年全国血吸虫病分布1 999年全国流行血吸虫病的 1 2个省 (市 )中 ,共有地区、地级市 1 63个 ,其中 87个为血吸虫病流行区。 1 2个省 (市 )共有 1 2 1 3个县 ,40 9个
本文描述了一种基于短语统计翻译的汉维机器翻译系统。首先使用汉维语料进行训练,得到语言模型和翻译模型;再利用训练好的模型对源语句进行解码,以得到最佳的翻译语句。解码的核
针对最小二乘支持向量机在语音数据大样本输入下的局限性,提出了一种基于GMM特征变换和模糊LS-SVM的学习算法,结合高斯混合模型在拟合数据分布方面和最小二乘支持向量机在分
本文依据班智达藏语料自动分词技术,设计出班智达藏文查询接口及信息西抽取总体功能结构,较详细地讨论了班智达藏文藏词性规范、词典库的数据结构和信息抽取的文法规则,并给出了
铍是原子能、航空、电子、光学仪器和特种陶瓷等工业常用的一种轻金属 ,一般用量较多的铍化物有氧化铍、氟化铍、氢氧化铍、硫酸铍、氯化铍等。铍及其盐类的毒性是较大的 ,尤
1979~1987年,我们收治战伤410冽,给予再次清创、抗感染、取异物、截肢、植皮、植骨、软组织缺损修复和复位固定等处理,现作回顾性总结如下。临床资料本组均为男性青年,平均年龄21.3
在选择性氧化试剂作用下,甲醇被氧化至甲醛,乙醇不能被氧化至乙醛。以品红亚硫酸作显色剂检测甲醛。该方法最低检测含量为100mg/L(国家食品卫生标准规定:谷物类和薯干类饮用
在维吾尔文和数学公式的笔式输入识别中,不能准确的对符号进行切分和处理是造成识别错误和系统运行效率低的重要原因之一,本文通过对符号切分问题的分析,提出了一种有效的符号切