维吾尔语大词汇量连续语音识别研究──语音语料库的建立

来源 :第十一届全国民族语言文字信息学术研讨会 | 被引量 : 0次 | 上传用户:qhdjy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
维吾尔语是黏着性语言,利用丰富的词缀可以用同样的词干产生超大词汇,给维吾尔语语音识别的研究工作带来了很大困难。在语音识别领域,维吾尔语是研究较少的语言,为此研究维吾尔语语音识别的第一步就是建立语音语料库。用于录制语音数据的文本来自新疆日报、维吾尔文网站、维吾尔文小说等多种媒体,选择的领域广,基本上覆盖了维吾尔语的所有语言现象。本文围绕维吾尔语大词汇量连续语音识别研究中的关键技术,重点阐述适用于大词汇量连续语音识别的维吾尔语语音语料库的设计思路和建立过程。
其他文献
论文在没有本地输入法的情况下,研究了如何按给定的维吾尔文多个关键字进行搜索和显示搜索内容的相关技术,其中包括了维吾尔文字符的Unicode编码方案设计,维吾尔文在线处理,
ICE1基因是能够编码类似MYC的bHLH转录因子,在低温条件下能够特定地结合CBF3基因启动子中的顺式作用元件,以诱导这个基因所能调控的下游基因的表达。本研究以4℃低温处理24 h的
本文主要讨论了维吾尔语生成句法研究及其句法规则,基于规则的维吾尔语句法分析方法与基于LR算法的维吾尔语句法分析方法.
本文分析维吾尔语的言语形式,研究维吾尔文音节的构成规则,给出了音节分解思路,设计并实现了维吾尔文音节自动切分算法及程序,在对大量生语料进行统计测试的基础上,一共收集
“读书月报”去年7月号上,发表了一篇批评千家驹著“什么是国家资本主义”小册子的文章,题为“不要以引证代替分析”(周力田著)。11月号上千先生写了一篇“对‘不要以引证代
据《东芝レビュ一》2010年第3期报道,为了实现雷达系统的多用途、高性能,其关键是大功率T/R组件的研发。为了实现这一目标,东芝公司开发了GaNHEMT放大器的收发组件。该组件采
本文小词汇量特定人维吾尔语孤立词语音识别是基于DTW识别方法,提取梅尔倒频谱特征参数,码本设计时使用LBG算法。每个单词对应的.vq文件,它充当参考模板库。在孤立数字识别的
会议
维语是一种粘性语言,在这一类语言中词是由词根加词缀构成,理论上维语的词汇量是无限的。维语词的词根-词缀切分、音节切分的规律对维吾尔语自然语言处理方面提供更多方便。
会议
本研究在资源库中发现了一个大粒品种,暂被命名为big grain 3(bg3).该品种的千粒重明显高于常规水稻品种.通过遗传分析表明该大粒性状为数量性状.与R28相比,bg3的籽粒长和宽
蒙古语格框架的研究和建设中谓语是核心。我们从语料库中归纳了蒙古语谓语结构知识,以及谓语段辅助成分的结构知识,作为蒙古语格框架研究的知识资源基础。本文主要介绍了基于