语音识别中基于i-vector的说话人归一化研究

被引量 : 0次 | 上传用户:zhanglicheng666
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音识别中说话人归一化的首要目的为消减说话人之间的随机差异,提高恒定参数,在此过程中过滤个人特征,得到具有语言学意义的有效信息。另一个作用体现在对录音时不同发音方式(正规、差别和紧张等)差异进行消除。i-vector是目前说话人识别中较为有效的一种方法,也是近几年来比较流行的建模思想。它能较好的反映说话人之间的个性差异,利用这个显著的重要特征,无论是对于说话人识别还是在说话人验证方面均显示了其有效性。我们可以利用这些差异进行说话人识别和聚类。进行聚类之后,根据这种聚类信息进行说话人归一化,应该能够得到较好的语音识别结果。根据上述思想,本文将i-vector应用于语音识别中的说话人的声学特征归一化:首先对训练的语音数据提取特征矢量i-vector并利用LBG算法进行无监督聚类,LBG算法的无监督聚类的两类正好反映了男女的性别特征。然后对各类分别训练最大似然线性变换并使用说话人自适应训练来实现说话人的归一化。将变换后的特征用于说话人识别的语音训练和识别,其实验结果表明了该方法能够提高语音识别的性能。
其他文献
ZnO是宽禁带直接带隙半导体材料,禁带宽度达3.37eV,ZnO的激子束缚能为60MeV,高于GaN材料的21MeV,更易于实现室温紫外受激发射。ZnO易于找到晶格匹配的衬底材料,外延生长温度低,成膜
超视距雷达,又叫超地平线雷达,与视距雷达不同的是,它不受地球曲率限制,可以探测到以雷达站为基准的水平视线以下的目标。它的工作频段一般是在短波波段,最低频率为3MHZ,最高频率为
随着时代的发展,人们进一步加快了城市建设的部分,城市道路可以说是整个城市发展的重要"血管",所以在城市建设过程中,人们对市政道路的修建日益关注,而市政道路路基施工是整
大众广泛关注网络言论自由。随着网络的诞生,公民言论的自由表达在网络时代得到了多样化的发展,不再局限于“街头发言者”方式,但同时也在发展之中产生了网络暴力、网络谣言
河北农民的收入增长是河北农村经济发展的头等大事。改革开放以来,河北农民收入有了很大提高,其增长历程可以划分为五个阶段,在不同的历史阶段,农民收入增长具有不同的特点。
目的:本研究应用新生SD大鼠缺氧缺血性脑损伤(hypoxic-ischemic brain damage, HIBD)模型,观察大鼠青春期焦虑样行为的变化及黑质酪氨酸羟化酶(tyroxine hydroxylase, TH)的表
钻孔灌注桩是我国公路桥梁工程施工建设中一种非常重要的施工工艺,其具有很强的底层适应性和很高的承载能力。钻孔灌注桩多在地下或者水下进行施工,是一项隐蔽工程,在钻孔灌
科技的发展促进医疗事业的现代化进程,会计信息化正是会计行业适应时代发展的成果,它采用计算机系统,将员工从繁琐、重复的基础输入工作中解放出来,将重点放在对数据的管理与
以快速响应客户个性化、多样化需求为目标,提出了基于Pro/TOOLKIT二次开发技术的产品自适应变型设计方法及其架构,并研究了涉及的自动化装配关键技术;结合企业应用实践,开发
十八大政治报告对医疗体制改革和医疗服务水平提升提出了很多新的要求,体现了我党对民生的关注。十八大精神对公立医院思想政治工作的开展提出了很多新要求,公立医院思想政治