日本‘能’中语音和嗓音的声学初探

来源 :第九届全国人机语言通讯学术会议 | 被引量 : 0次 | 上传用户:beckham621
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文以日本歌舞‘能乐’中的‘能’为研究对象,采用提取语音信号中的时长和共振峰,分析文读的语音与‘能’的语音之间的关系。还采用提取EGG 信号中的嗓音基频,开商参数和速度商参数,分析这3 个参数之间的关系。得出的结论主要有: 1)‘能’中语音的每个时长的长短是描叙各种风格的重要要素之一;2)共振峰频率值带抖动的趋势,主要是F2、文读与‘能’之间的元音/u/的共振峰频率值呈比较大的变化;3)‘能’的歌声听觉上很低,但各基频平均值表明‘能’的基频高于文读的基频;4)唱‘能’时的开商比文读时的低;5)文读时基频与开商是正向相关,唱‘能’时其关系不一定是正向关系;6)速度商与基频、开商之间有负相关的趋势。
其他文献
在与文本无关的说话人识别研究中,因子分析是减少信道影响的最有效的方法之一,但是因子分析复杂的运算使得因子分析在实时中很难得到应用。本文提出采用主成分分析的方法简化因子分析的过程。首先在模型域中估计出信道因子所在的空间,然后通过映射的方法在特征参数域中减去信道因子的影响。在2006年数据库上,采用本文推荐方法的系统相对基线系统在等错误率上有24%的降低。
随着音频处理技术的发展,对歌曲演唱进行自动评价逐渐引起了大家的兴趣。本文结合音频信号处理技术和动态规划的搜索算法,提出了一种利用音高序列和音符时长序列对清唱语音进行自动评价的方法,在此基础上,实现了清唱评分和清唱纠错系统。本文描述了该系统的框架和流程,并介绍了系统中用到的关键技术:音符切分,音高提取,节奏提取,得分归一化技术以及乐谱库的建立。实验结果验证了该方法的有效性。
本文分别采用了多元线性回归算法和反向传播算法对二语学习中英语口语的人工评分和三种机器评分之间的关系进行学习,实现了上述三种机器评分的融合,并从语音库、相应的人工评分和机器评分三个角度对数据集的建立进行了详细的介绍。实验结果表明,由以上两种融合方法得到的机器总分与人工评分之间的相关度相比于融合前的最佳机器评分在句子层次上分别提高了1.4%和1.7%,在说话人层次上提高了0.6%,并显著降低了两者之间
为了更好地研究普通话声调在连续语音中的变化规律,本文对普通话声调进行精细建模,即建立上下文相关的声调模型(Context Dependent Tone Model,CDTM)。该模型兼顾了当前音节的声韵母、前后音节的声调、后音节的声母以及当前音节在韵律词和短语中的相对位置等因素对各个声调的影响。实验结果表明,CDTM与传统的三音子模型(tri-phone model)在声调识别上的效果基本一致,但
在语音识别的HMM模型中对高斯分量进行共享(高斯绑定)是模型压缩中的重要技术,现有基于均匀分配的高斯绑定技术,不能有效地利用高斯,容易造成冗余。本文提出了基于非均匀分配的高斯绑定技术,给出了分别在最大似然准则、最小KLD准则和最大BIC准则下高斯成份数目的非均匀分配方法,在WSJ0数据库上进行实验,结果表明,该技术能够在模型总高斯数相同的条件下,与现有的基于均匀分配的高斯绑定技术相比,可以进一步提
招聘信息检索与传统信息检索存在较大差异,传统检索方法不能实现良好的招聘信息检索效果。为解决该问题,本文提出二阶段招聘信息检索方法,针对招聘信息的标题文本和职位描述文本分两阶段分别进行不同的处理。第一阶段本文采用VSM模型对标题文本进行初步检索,将相关度较高的招聘信息视为种子;第二阶段,本文采用文本相似度度量方法和聚类分析方法,在招聘信息全集中寻找与种子相似度较高的招聘信息。通过结合“请求-文档”相
本文介绍了基于新的声道长度规整(VTLN),基音和异方差线性判别分析(HLDA)的有调语音识别系统。传统VTLN 能提高基本音节的识别率,却不利于声调的识别,本文提出新的VTLN,提高基本音节识别率的同时,抑制对声调识别的负作用。增加平滑后的基音轮廓信息,可提高声调的识别率,本文认为对基音做方差规整,缩小基音范围,有利于声调识别。并且结合HLDA,有效去除基音中的冗余信息,可进一步提高基音的利用效
在语音自动切分中普遍采用的声学模型是三音子模型。研究表明,以三音子模型为单元模型在语音自动切分中是存在局限性的。其原因在于连续语流并不是简单的音子串联组合,各音子结合的紧密程度或协同发音现象,在不同的环境下是不同的,从而导致不同的音变现象并影响切分精度。本文针对三音子模型在英语语音切分中的不足,根据语音学知识和实际训练数据,增加了一批较长的语音单元组成了不定长的语音单元,并在此基础上提出了基于不定
本文介绍了一种基于多高斯建模和挑选的HMM语音合成方法。该方法的目的是通过多高斯建模和合成使得合成语音听上去音色更亮,更具多样性,音质更好。该方法在模型训练阶段使用高斯混和模型来表征用于合成的HMM 声学模型中每个状态的观测概率密度函数,并且在参数生成时采用了Viterbi 搜索算法来挑选用于合成的高斯分量序列。合成语音的测听实验表明,该方法与原来的单高斯基线系统相比,合成语音在音色、音质和韵律上
本文介绍了一个基于ARM的说话人确认系统,该系统确认算法建立于高斯混合模型-全局背景模型(GMM-UBM的基础上,并对系统的代码移植进行优化改进。硬件系统采用EasyARM2131为系统的实时实现提供了保证。