【摘 要】
:
语种识别(Language Identification, LID),是计算机通过分析处理一段语音以判别其属于何种语言的过程。随着信息时代的到来,自动语种识别技术在信息服务和军事安全等领域扮演
论文部分内容阅读
语种识别(Language Identification, LID),是计算机通过分析处理一段语音以判别其属于何种语言的过程。随着信息时代的到来,自动语种识别技术在信息服务和军事安全等领域扮演着重要角色。人们研究自动语种识别已有近40年的时间,然而目前这仍然是一个具有挑战性的研究课题。语音信号的特征提取是进行自动语种识别的基础,语种识别系统的识别率和运算量都直接依赖于所采用的特征提取方法。目前比较成熟的语种识别系统大都采用音段声学特征或音素识别器。声学特征的方法运算量大,训练时间长,并且抗噪声性能较差;在基于音素识别器的方法中,为了训练音素识别器往往需要用人工标记大量的训练语料,系统的移植性差。音节是听觉能感受到的最自然的语音单位,也是读音的基本单位,在语流中相对稳定。本文探索从语流中自动提取伪音节,并将其作为基本单元应用于语种识别的新方法。论文的主要工作包括:(1)为了便于从语流中自动提取伪音节,本文将紧邻的一个辅音段和一个元音段结合在一起构成一个伪音节,并称之为CV音节。然后,设计并实现从语流中自动检测CV音节的算法。在此基础上,从CV音节中提取元、辅音段的音长,元、辅音段的平均Mel倒谱系数(MFCC)、MFCC方差,元、辅音段之间的谱距离,并将其定义为CV音节特征矢量。(2)基于上述CV音节特征矢量,采用高斯混合模型(GMM)和语言模型(LM),构建语种识别系统。(3)以汉语普通话及6种少数民族语音数据为对象进行实验研究,提取CV音节特征矢量,训练GMM模型和语言模型,测试语种识别系统的识别率。实验结果表明:基于GMM模型的系统平均识别率达到了74.3%,引入语言模型后,系统的平均识别率提升为76.0%。这些结果说明了应用伪音节特征进行语种识别具有可行性,在目前常见的基于音段特征的系统中引入伪音节特征,可望明显提高其性能。
其他文献
目的 研究总结张仲景运用半夏之规律。方法 通过对《伤寒论》、《金匮要略》两书中运用半夏的43首方剂进行综合、分析、比较,总结出其规律所在。结果 半夏之用可概括为降逆止
<正>脚癣是由真菌引起的常见慢性传染性皮肤病,常见症状为趾缝间潮湿、发白、奇痒、喜搓,有时可见成群或分散的小水疱,搔搓后流出澄清的黏性液体,甚至血水,常引起趾间糜烂、
<正>相传洛带古镇在汉代叫万景街,后来诸葛亮更名为万福街,又因后主阿斗的玉带落入镇旁八角井而更名为"落带"(演变为"洛带")。清朝时曾更名为"甑子场"。"洛带"最早见于唐末杜
目的:探讨新生儿重症监护病房院内感染常见病原菌的分布及进行危险因素分析,对临床治疗提供理论依据。方法:对我院NICU3726例新生儿进行统计,建立对照组进行Logistic回归分析得出
目的:测定原发性三叉神经痛(primary trigeminal neuralgia, PTN)病人血液和脑脊液中降钙素基因相关肽(calcitonin gene-related peptide, CGRP)和P物质(substance P, SP)的
<正>笔者在《按摩病自除》一书中,读到臧福科师从"宫廷理筋术"大师刘寿山时,学得抓腹治癫痫之术,对此很感兴趣,现介绍如下。操作方法,患者仰卧治疗床上,医者取下腹部即患者肚
飞轮储能是一种新型无污染的绿色能源技术,为了提高飞轮的储能密度,多采用高比模量、高比强度的纤维增强复合材料来制备飞轮转子。复合材料是各向异性材料,通常所说的复合材料
通过响应面分析法(RSM)研究了超临界CO2流体萃取南瓜籽油的工艺条件,得出南瓜籽油萃取率与影响因素间的回归模型,并根据模型进行工艺参数优化。同时,用气相色谱法对所得南瓜籽
<正>孔圣枕中丹载于《备急千金药方》,具有镇静安神、健脑益智作用,可用于神经衰弱导致的失眠、记忆力减退、心悸怔忡、头晕耳鸣等症。一般资料选取我科2009~2011年收治的神
<正>近年来,电影与网络的融合趋势日渐增强。电影借助网络开展宣传与传播,网络通过提供电影资源博得广泛受众,提高点击量,以吸引资金投入。两者之间形成一种共生共存的关系。