基于感知的低速率语音编码算法研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:real_dolia
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
低速率语音编码技术的基本思路是识别语音与非语音信号并设计码本对两者进行压缩编码。现有的低速率语音编码算法侧重于对语音信号时空冗余度的挖掘,识别与压缩过程均忽略了人耳感知语音特点的考虑。目前,基于多帧联合技术的600bps~2.4kbps低速率语音编码器在高信噪比条件下已获得较好的性能,然而随着速率降低,在低信噪比环境下仍存在鲁棒性低、码本存储容量大、时延长等问题。鉴于以上考虑,论文把对语音信号的(主客观)感知因素纳入低速率语音编码器算法设计当中。首先,结合人耳对语音感知在频率上的差异对低信噪比下的鲁棒语音检测算法进行研究;其次,分别从人耳听觉对语音的主观感知和编码器对语音信号信息结构与内容的客观感知两个层面,重点研究设计更贴合语音信号信源空间的低复杂度码本。从识别与压缩两个角度进一步提高编码器的性能和稳定性。主要工作如下:1、针对编码器在低信噪比环境下语音检测准确率下降的问题,提出一种基于子带双特征的自适应保留似然比鲁棒语音检测算法。算法首先根据人耳对语音感知随频率的变化规律划分子带,然后在基于统计模型的似然比检验方法中引入保留权值,通过提取子带归一化双重特征,从时域的角度把具有明显语音特征的子带似然比保留下来参与综合评估,同时利用过去固定时长内的判决结果及相关子带特征参数自适应更新保留阈值。实验结果表明,与同类方法相比,在10dB,0dB和-10dB白噪声下检测准确率提高幅度分别为0.96%~15.91%,1.54%~17.96%和0.65%~11.44%,在10dB,0dB和-10d B Babble噪声下检测准确率提高幅度分别为2%~18.27%,2.9%~11.86%和0.18%~3.65%;方法同时被用于2.4kbps低速率语音编码器,在10dB,0dB和-10dB Babble噪声下,语音质量感知评价(Perceptual Evaluation of Speech Quality,PESQ)值分别提高了0.159,0.157和0.186;在10dB,0dB和-10dB白噪声下,分别提高了0.153,0.098和0.096。2、为了提高码本生成过程中初始码本对信源空间的感知表达能力,提出了一种基于自适应正交M码字分裂的码本生成方法。在码本初始化过程中把每个码字按照码本生成策略分裂成相互正交的多个码字,并通过感知码字对应胞腔的信源分布情况自适应设置分裂矢量大小,使初始化码字能更好地表达语音信号的信源空间,从而减少后续的聚类迭代次数。新方法与二分初始化码本生成方法相比,在保持相近量化失真的前提下,把生成不同大小码本的时间降低了18%~45%。3、针对基于平均失真度生成的传统码本对编码资源分配不合理问题,从人耳感知理解的语音角度,提出一种基于人耳感知的线谱频率(Linear Spectrum Frequency,LSF)参数矢量量化码本设计方案,该方案根据LSF残差的大致分布采用非标准椭圆方程划分多个区域,以过渡段信号更有助于人耳理解语音这一事实作为依据,采用按区域调整训练样本比例的方式对编码资源进行全局调整,并使用调整后的样本设计量化码本。实验结果表明,在500bps声码器应用中,新码本编译码后合成语音的PESQ值相比原码本在男女声样本上分别提高了0.03和0.02。另外,为了降低码本存储容量以及搜索码字造成的时延,把分区域设计码本的思想与格型矢量量化方法相结合,提出了一种基于全局非均匀局部均匀的自适应多尺度格型矢量量化方法,实验结果表明,改进方法在量化失真上略大于传统的多级矢量量化算法,但码本存储容量减少幅度为60%~100%,量化时延降低幅度为69%~80%,在时延、存储容量与量化性能之间取得更好的平衡。4、在编码器对语音信号信息结构与内容的客观感知层面上,从压缩和优化两个角度探讨利用压缩感知理论提升低速率编码器性能的可行性。一方面,分析了LSF参数在不同变换域下的稀疏性,开展了基于压缩感知的LSF参数重构性能研究,研究证实了LSF参数在DFT域和学习字典下均具有不同程度的稀疏性,且在重构性能方面学习字典优于固定变换域;另一方面,为了在译码端减少LSF参数的量化失真,提出了一种基于稀疏表示的译码端LSF参数优化算法,结合量化误差的先验知识,在译码端对声码器参数进行优化调整,研究结果表明,优化后的LSF参数平均失真度比优化前降低了约0.3~1.8%。5、最后,整合上述语音检测和感知码本设计的相关研究成果,提出了基于感知的500bps极低速率语音编码算法。实验结果表明,新算法与中科院在2013年提出的算法相比,在更低的码本存储需求下,无噪环境中合成语音的PESQ提高幅度为0.201和0.141。
其他文献
设计了一个新的以磺酸阳离子交换树脂为原料制备含硫水不溶性杀菌剂的合成路线.通过聚苯乙烯磺酸吡啶盐中间体合成磺酰氯树脂,在磺酰氯树脂上固载二乙胺,再用带有叔胺基的树
目的:从早期人胚分离培养人早期胚胎间充质干细胞(mesenchymal stem cell,MSC),并初步鉴定其生物学特性。方法:取4-6周胚龄的人胚,用免疫组织化学法,结合特定抗体SH-2,对MSC
为分析汽车空调平流式冷凝器的换热、流动性能,假设制冷剂沿管长方向做一维流动,空气侧流动视为零维流动,忽略制冷剂加速压降,对制冷剂两相区采用均相模型.使用AMESim建立平
对帽峰山森林公园和广州市区2004年的月平均气温、月平均最高气温和月平均最低气温进行了统计,进而对帽峰山森林公园的"冷岛"效应进行了分析.结果表明:帽峰山森林公园月平均
研究了准确测定金属酸洗废液中铜、铁、锌、镍 4种元素的原子吸收光度分析法。结果表明 ,可对同一份金属酸洗废液中 4种金属离子进行连续测定 ,方法的检出限均小于0 .139μg/
本文认为,单个替代变量无法准确衡量投资者情绪的高低。对投资者情绪的全面测量不妨借鉴Baker和Wurgler(2006)的研究,通过建立投资者情绪综合指数的方式来进行。
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
中国金融租赁行业发展现状 金融租赁是 20世纪60年代世界金融创新的产物,目前已成为发达国家较为成熟的融资方式,融资业务额增长迅速,成为仅次于银行信贷的第二大融资方式,在
期刊
机载预警雷达作为一种军用传感器,在现代战争中发挥着重要作用。机载雷达在探测低空目标时,处于俯视工作状态,不可避免地会接收到许多地面杂波。地面杂波强度大、范围广,运动
引言 随着2017年5月'一带一路'国际合作高峰论坛的顺利召开,这一主题直接成为A股市场的炒作热点.本文选取了'一带一路'板块下的 20 支股票作为研究对象,运用
期刊