基于瞬时幅度加噪声模型的语音压缩

来源 :浙江工业大学 | 被引量 : 0次 | 上传用户:csutouyang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,信道资源越来越宝贵,为了提高存储效率和减小存储空间,在允许的失真条件下,如何设计/实现高质量的低速率语音编码器是当前的热点之一。现如今,采用单一的编码技术很难满足上述要求,混合编码技术已成为语音编码的优选方向。本文研究了一种确定分量和随机分量组合的语音信号表示模型——瞬时幅度+噪声模型,它是正弦+噪声模型的一种改进型结构。正弦+噪声模型是一种谱模型结构,它利用人类对声音的感知特性,将声音的周期分量以正弦的时变幅度、频率和相位形式来表示,剩余的非周期分量(残差信号)用已滤波的噪声形式呈现。因为周期分量的不稳定性,在语音信号中,估计正弦模型的参数是一项十分困难的任务,进行正弦轨迹的匹配和相位参数的平滑也是相当繁琐的工作,同时也很难达到较高的时间和频率分辨率。因此,我们提出了一种改进型正弦模型——瞬时幅度(IA)模型。该模型主要是把正弦模型中难估计的相位参数转化为对两个瞬时幅度参数的估计,从算法的实现角度上做了简化。同时对频率参数的估计采用了一种迭代的方法,利用该方法提取出的正弦分量都是相对人耳最重要的成分,从而使得合成的语音在质量上得到了相对提高。对于剩余的非周期分量我们采用线性预测分析合成原理,建立一个全极点声道模型,然后估算并传输模型参数和激励参数。对瞬时幅度+噪声模型提取的参数分别进行编码传输,对于正弦分量的幅度参数提出了一种多项式包络拟合的方法。而对于线性预测(LP)系数,由于量化后再传输会对系统造成不稳定的现象,因此将其变换成更适合编码和传输的参数——线谱频率(LSF)参数。通过对模型参数的量化、编码和解码,我们设计了一个编码速率为10.72 kb/s的语音编解码器。同时,本文设计了一个MATLAB用户图形界面(GUI)。我们将仿真后的数据都储存在该界面中,并通过对界面上的按键操作实现相应的功能,例如播放语音,显示语音的波形图等功能。通过大量的实验数据和平均意见得分(MOS)主观测听评价得出,本文基于瞬时幅度+噪声模型设计的语音编解码器具有较好的性能,合成的语音无论在质量上还是在压缩率方面都较传统方法有了大的提高。因此瞬时幅度+噪声模型对设计低速率高音质的语音编码具有较高的研究价值。
其他文献
随着无线通信技术的发展,无线通信技术遍及人们生活的每一个角落。然而与此同时无线频谱资源却越来越紧张。所以,一直以来无线技术的核心问题就是如何提高频谱的利用效率。近
随着全球化趋势的加剧,国际间交流越来越密切,各国家和地区的人们因为经济、政治、文化、旅游的需要而频繁往来,使得人们迫切地需要能够突破语言的限制,自由地进行交往。因此自动
2007年5月24、25日下午,由中国国际贸易中心股份有限公司、中国旅游商贸服务总公司和中国食品杂志社主办、北京屈浩烹饪服务学校协办的“名厨料理传统菜新理念”活动在“2007
随着互联网的迅猛发展,推荐系统已经渗透到了互联网中的各方各面,包括电影、书籍、音乐、新闻、网上购物等等。并且在如今信息暴涨的背景下,推荐系统显得尤为重要,推荐技术也越来
MIMO技术能够在不增加带宽的情况下成倍地提高通信系统的容量和传输质量,因此被公认为第四代移动通信系统的核心技术之一。MIMO技术有集中式MIMO系统和分布式MIMO系统这两种应
DMR通信系统是国际ETSI组织正在完善的最新专业数字移动通信标准,相对于已经成熟的TETRA与APCO25两大数字标准,DMR具有产品成本低、技术先进,并且支持从模拟到数字的过渡等优
Ad Hoc网络是一种无中心控制、高度动态拓扑、多跳通信的自组织网络,依靠节点间的相互协作在移动、复杂多变的无线环境中自行成网。它的应用领域非常宽广,涉及到生活中的很多
期刊
IMS(IP多媒体子系统)由3GPP标准化组织在R5版本中提出,是下一代网络核心组成部分之一,未来的实时多媒体服务对于实时性和延迟的要求很高,需要QoS(服务质量)的支持,为了满足实
PIV(Particle Image Velocimetry,粒子图像测速)是随信息科学和图像处理等学科发展而兴起的一种流场测量技术,与传统方法相比,它具有无扰动、即时、全流场测量等优点。目前二