基于频谱构造的语音智能合成方法研究

来源 :陕西科技大学 | 被引量 : 0次 | 上传用户:bohedan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音合成(Speech Synthesis)一直是计算机智能处理和人工智能(Artificial Intelligence)研究的重要领域。目前,数据驱动法通过载入语音语料库中最小单元进行处理合成语音信号。语音合成技术尽管具有很长的研究历史,但是因为灵活度较低而难以实现基于语音编码的模拟演唱。所以,语音合成技术还具有很大的提升空间。为了研究语音信号的频域特性,充分挖掘语音频谱图(Speech Spectrogram)信息,实现高灵活度的语音编码技术,本文通过对人体听力学(Human Audiology)和皮肤听声器原理的研究,提出了基于频谱构造的语音重建方法,并通过实验证明了该方法的有效性。该方法将声音数据数学化和公式化,使声音数据得以灵活保存和应用。本文主要研究工作如下:(1)根据皮肤听声器原理分析汉语单韵母语音信号。结合传统的语音信号短时分析方法和皮肤听声器原理,研究了各种滤波器的滤波效果,并对汉语单韵母语音信号进行滤波实验,分析单韵母语音信号的频谱分布。分析得出汉语音素[o]的发音较为特殊,是由[u]到[e]变化的过程,所以在合成音素[o]时要结合音素[u]和音素[e]的频率分布情况和数学表示函数。(2)设计了基于频谱构造的语音合成方法。在传统的语音信号分析中,二元激励模型将语音汉语语音强制分为清音和浊音,导致模型在语音合成中局限了合成信号的多样性。针对该问题,提出了基于频谱构造(Spectrum Structurization)的语音合成方法,该方法通过数学形式表达语音信号并使用语音正弦模型(Speech Sinusoidal Model)进行语音信号重建,可以被灵活调用。首先,对语音信号进行滤波处理,去掉低频电流信号干扰;其次,使用傅里叶变换(Fourier Transform)将语音时域信号变换为语音频域信号,即语音频谱图;然后,分析汉语单韵母音素的频率分布,提取中心频率参数和幅值参数;最后,以WAVE文件做为语音信号的载体,以C#语言进行WAVE文件头定义以及语音合成的函数设计并进行语音信号合成。(3)在Visual Studio 2015环境中以C#语言搭建智能语音合成平台,进行语音信号合成。首先,从频谱构造法进行语音合成的功能需求出发,设计了语音智能合成平台的功能框架;其次,根据WAVE文件结构初始化文件头参数;然后,将语音信号参数载入文本框中;最后,通过叠加单频率正弦信号实现语音信号合成并以WAVE文件作为信号载体,以二进制流写入文件并将文件保存至指定路径。对比合成语音信号与原始信号,合成语音信号减少了冗余信息,突出语音信号关键频率的同时平衡了各频率段的能量。(4)使用合成语音信号进行主观评价测试并建立语音函数库。主观评价测试采用辨析法将合成语音信号和原始语音信号打乱次序,由测试者进行男女声辨析测试和单韵母辨析测试。根据主观评价测试结果得到了合成语音的混淆矩阵。结果表明,重建汉语音素[a]、[e]、[i]、[u]、[u]的识别率范围是83.3%~88.9%,汉语音素[o]的识别率为72.2%,汉语单韵母音素的平均识别率在85%以上。与双谱线重建汉语单韵母语音的混淆矩阵相比,除了语音因素[o],其他音素的识别正确率皆有显著提高。根据合成语音信号频谱分布和混淆矩阵分析汉语单韵母音素模拟函数的频率边界,建立汉语单韵母音素模拟函数库。综上所述,本文根据语音信号的产生原理、皮肤听声器原理和正弦模型设计了语音合成的频谱构造方法,通过实验分析得到了单韵母音素的主干频率分布,建立了语音模拟函数库。初步揭示了语音信号可以通过数学方法进行表示的基本规律,并通过语音识别实验证明了频谱构造法的可行性,在语音智能处理与合成中具有重要的理论意义和广泛的应用前景。
其他文献
针对浓度为nmol·L-1级别的重金属离子检测材料较少问题,选择大比表面积和具有丰富官能团的生物质炭材料与含有较大层间距、吸附性能好的LDH材料进行复合,制备了改性Mg/Al-LDHs@BC和Mg/Fe-LDHs@BC材料,采用XRD,FT-IR,BET,SEM,TEM,XPS等方法对材料做了表征测试,并用电化学方法对四种水中重金属离子进行检测,效果良好。首先是生物质材料的制备,以汉麻杆为碳前驱体
随着红外制导武器在军事上的广泛应用,动态同步高帧频、高灰度、高分辨率半实物仿真系统越来越受到各军事强国的重视。而半实物仿真系统的核心器件是场景模拟器,如何实现场景模拟器在不牺牲分辨率的情况下动态同步显示高帧频、高灰度图像一直是各科研机构的研究方向。本文以DMD为红外场景投影器件,在DMD分辨率一定的情况下,研究DMD的投影帧频与灰度的关系,并驱动DMD动态同步显示高帧频、高灰度图像。为实现DMD动
氧化锌矿在锌资源中拥有不可代替的地位,而菱锌矿是氧化锌矿中最重要组成之一。随着科技的不断发展,对锌资源的需求量也越来越大。如何充分的利用氧化锌矿,提高氧化锌矿的回收率是迫不及待的工作。通过大量研究发现:氧化锌矿的粗选回收率并不低,但随着精选次数和精选时间的增加,在锌品位提高的同时精矿回收率急剧下降,中矿量增加明显。这一现象的本质可能是氧化锌矿可以被较好的硫化而引起疏水浮选,但是表面硫化层不稳定导致
国际电信联盟(ITU)在第22次会议上明确了 5G三大应用场景为超可靠低时延通信(URLLC),增强移动宽带(eMBB)和大规模机器通信(mMTC)。根据5G发展策略,在5G部署初期,URLLC业务与eMBB业务共存场景将会成为典型应用场景。其中,eMBB业务要求高数据传输速率,数据量大,对资源占用率高;URLLC业务要求时延低至1毫秒,可靠性高达99.999%,业务优先级更高。由于两种业务均有无
产业协同是京津冀协同发展规划纲要确定的“率先突破”三个重点领域之一。促进京津冀区域产业协同发展的关键在于深入分析各地的产业结构,分别研究三地之间的产业关系,加强不同区域的产业分工和合作,加快产业的优势互补,实现整体上互利共赢。在京津冀一体化进程中,各方已经在物流一体化先行上形成统一看法,产业的发展,离不开物流业的发展,物流业不断完善的进程中,也在经济发展中发挥着日益强大的支持作用。为了实现区域整体
改良水稻产量相关性状、提高水稻产量仍是水稻育种研究的重要内容。传统的杂交育种方法改良水稻产量性状的不确定性及盲目性,大大限制了水稻产量育种水平的提高。随着大量水稻产量相关性状基因的克隆及相关生物技术的应用,特别是近几年发展起来的基因组编辑技术的应用,为定向改良水稻产量相关性状创造了条件。本论文拟利用基因组编辑技术定向突变几个水稻产量相关性状基因,创制一系列相关基因的突变体,观察其性状表型,探讨定点
随着路基加固技术的飞速发展,土工袋路基加固技术也逐渐成熟,土工袋技术作为一种新型的路基加固技术,具有约束力强、减少路基沉降、防止冻胀融沉以及减振等效果。土工袋在房
背景:胰腺癌是一种恶性程度极高的消化系统肿瘤,吉西他滨是目前临床治疗胰腺癌的一线药物。但是由于肿瘤耐药的存在,胰腺癌的药物治疗效果欠佳。Rho鸟苷三磷酸酶(Rho GTPases)是一个20-30成员组成的超蛋白家族,在肿瘤的生物学活动中发挥着重要的作用,而Rho鸟嘌呤核苷酸解离抑制因子2(Rho GDP dissociation inhibitor RhoGDI2)是其关键的调控因子。现有的研究
目的:回顾性分析乳腺浸润性导管癌伴广泛导管内癌成分(EIC)及其他临床病理因素对保乳术后局部复发及生存的影响。方法:收集我院2008年1月1日~2015年12月31日接受保乳术的早期乳腺癌患者的病历资料,进行随访,符合既定入选标准且具有完整资料的乳腺浸润性导管癌患者共182例。比较EIC 阳性(n=23)和EIC阴性(n=159)两组乳腺癌患者的临床病理特征,分析两组患者术后的局部复发率及生存情况
目的:本实验通过对比银杏叶提取物及通心络超微粉这两种药物对于进行脑缺血再灌注处理后的SD大鼠海马的NO(Nitric oxide,一氧化氮)产生量的影响,探讨两者的作用机制。方法:本