基于说话人转换的语音识别方法

被引量 : 0次 | 上传用户:ivsou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
说话人转换是语音信号处理领域中一个前沿的研究分支。说话人转换就是对一个说话人(源说话人)的语音信号进行修改,在保留语音信号所表达的语义信息的前提下,使得修改后的语音信号听起来像另外一个说话人(目的说话人)所说的。说话人转换对语音分析、语音编码、文语转换、说话人识别和语音识别等领域都有重大的促进意义。语音处理中广泛使用的正弦+噪声模型具有易于参数修改、合成音质高的特点。该模型通过参数修改的方法,能够较为方便地对语音信号各种特征的进行修改。本文从正弦模型参数所体现的说话人特征着手,基于统计的方法,研究了基于正弦+噪声模型的说话人转换的方法,并将研究结果应用到语音识别中的说话人适应领域,引入了基于说话人转换的语音识别方法。说话人转换的关键之处是从语音信号中提取可分析合成的说话人特征。本文利用正弦+噪声的语音分析模型,进行说话人特征的基础性研究。结合统计分析的方法,着重分析了正弦模型中频率参数概率分布(FPD)和幅度参数加权的频率概率分布(awFPD)。在观察总结的基础上得出了一个实验结论:在有足够观察数据进行分析的情况下,频率概率分布和说话人有关,和语音内容和使用的语言种类相关性不大。通过应用混合高斯模型进行概率分布的拟合,本文提出了统计本征声音(SEV)和加权统计本征声音(wSEV)的说话人特征表示方法。SEV和wSEV描述了说话人发音器官特征、说话特点和发音喜好等固有的特征。在说话人统计特征的研究基础上,本文提出了基于统计本征声音SEV和加权统计本征声音wSEV的说话人转换方法。该方法使用SEV特征进行说话人频率转换,使用wSEV进行说话人频谱幅度转换,并且训练过程无需使用源说话人和目的说话人的相同语音样本。这种方法在跨语种说话人转换上有进一步应用的空间。基于SEV和wSEV的转换方法结合起来间接的修改了语言信号的基音频率和谱包络等声学特征。在合成结果自然度上,本文算法优于LPC声码器的说话人转换方法。在语音识别领域,与说话人无关(SI)的识别方法需要大量的训练数据。大量数据的采集和识别率的不稳定制约了其应用。传统的与说话人相关(SD)的识别方法则通过说话人适应方法,在减少训练数据的同时提高识别正确率和鲁棒性。但是SD识别方法在识别模型参数较多时,效率偏低,适应过程缓慢。为了克服这些缺点,本文将说话人转换应用于语音识别中,引入了基于说话人转换的语音识别方法。该方法在进行识别前先对输入的语音进行说话人转换,
其他文献
现代企业财务管理通过不断增加企业价值的理财活动与企业日常经营活动相结合,使企业财务活动和风险管理相统一,来实现企业价值最大化的目标。其分析、判断决策方案优劣的指标
物流园区是物流产业发展重要组成部分,在发达国家物流园有效管理促进了为物流产业发展。中国物流园区在迅速发展同时,缺乏科学规划、盲目建设与经济发展不匹配、已建成的物流
目的:本课题在论证急性病毒性心肌炎邪毒侵心、气阴两虚的基本病机和和解表里、益气养阴的基本治法的基础上,探讨小柴胡汤加味治疗急性病毒性心肌炎的疗效机制。方法:将60 例
阿诺德·格伦(Arnold Gehlen)是现代德国著名生物学家、社会心理学家和哲学人类学家。他从人类学视角对技术本质问题进行了独特尝试。通过人与动物比较,指出人是有缺陷的存在
目的探讨不饱和脂肪酸对肝细胞和成纤维细胞增殖及合成细胞外基质的影响.方法以MTT法、透明质酸(HA)RIA法及3H脯氨酸掺入法,观察4种不同浓度的油酸、亚油酸和花生四烯酸对无血清培养正常成
东北大学远德玉教授是从事技术哲学研究的著名学者,是我国技术哲学的创始人和奠基人之一。他以科技史为研究基点,涉足了技术本质、技术发展战略、企业技术创新、产业技术等多
观念是改革的先导,一切先进的教学改革都是从先进的教育观念生发出来的。同时,观念又是行动的灵魂,它决定和改变着我们教师的教学行为。此次基础教育美术课程改革带给我们怎
<正> 杨廷麟,字伯祥,江西清江人,明崇祯四年(1631年)进土,授翰林院庶吉士,后转编修。清军入关前,他力生抗击清军的进攻,不顾个人的生命安危,同主和派杨嗣昌等进行斗争,屡遭陷
卡尔·米切姆的技术伦理思想以科学技术一体化为前提,以其技术认识论和类型论思想为基础,集中讨论了高科技领域内产生的伦理道德问题。 根据研究方法的不同,米切姆把技术
党的十六届四中全会提出构建“社会主义和谐社会”,和谐社会提出一个全新的理念,就是“以人为本”,对高校而言,也就是以学生为本。近几年高校扩招,贫困生队伍也日益“壮大”,