基于增量学习的声音压缩方法与技术研究

来源 :广东工业大学 | 被引量 : 0次 | 上传用户:yutianfeipao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为缓解爆炸式增长的语音数据在带宽资源极少的情况下给应用带来巨大的传输和存储压力,本文结合信号稀疏性、稀疏表示和增量学习理论,对语音数据的频谱模值包络的稀疏性进行了研究分析,以保障在传输和存储中将语音信号数据进行有效编码压缩和高质量地解码还原。主要思路为利用语音频谱模值包络存在稀疏性的特点,结合稀疏字典学习基础理论,构建适合于模值包络的稀疏表示模型,再利用增量学习方法,提出基于增量式学习的字典构造方法,对流式语音频谱包络进行增量压缩。研究内容包括:1)使用稀疏字典学习模型,结合增量学习,提出字典学习构造方法,应对流式增量语音频谱包络:包括建立一个完整的模值包络字典,通过字典稀疏表示,使用字典中极少量的基向量线性组合,表示原始模值包络,并通过存储字典基向量的标号和其对应的系数来替代存储原始模值包络,实现语音信号的稀疏表示和压缩存储;2)字典学习和稀疏表示的方法的优化策略分析:包括通过对希尔伯特变换理论的研究和学习,提出利用希尔伯特变换性质的优化策略。通过对加入字典的基向量进行希尔伯特变换,将变换后的基向量用于稀疏表示过程中,增加了字典基向量的多样性,仅在计算机内存中保留每个基向量的希尔伯特变换结果,而仅将其系数存储于压缩文件。由此建立了仅额外占用了少部分压缩存储空间,但可提升字典表达能力,减少字典容量大小并加快压缩效率的优化策略。通过利用网络公开语音数据集PTDB-TUG,本文对所提出的方法与传统ODL算法进行了实验对比。实验结果表明:本文方法在压缩比和还原质量、SSNR三方面均优于ODL算法;优化策略也确实达到了提高字典表达能力,减少字典容量,加快压缩效率的目的。相关方法具有更强的灵活性,能够应对增量式流式语音频谱包络,实现使用极少数基向量拟合一个向量,对具体应用提供了多样性选择和指导意义。
其他文献
本文分析了连续硬膜外麻醉术用于女性尿漏手术85例的情况。提出术前、术中应注意的问题及其某些处理方法。并认为此种麻醉术用于女性尿漏手术,不失为是一种安全、可靠、易于
现金流管理居于财务管理最重要地位,体现企业的盈利与经营能力,对规避财务风险具有重要作用
18世纪上半叶,朝鲜朝士大夫在很大程度上摆脱了"华夷观"的传统思维模式,客观地肯定了中国社会所发生的巨大变化。受到这种朝鲜朝"社会总体想象"的影响,金昌业等朝鲜朝的燕行
<正>肖像漫画作为一种视觉文化,现今还不足以成为当代文化的主流形态。反之,像流行音乐等已经成为流行文化的主导。关键原因就是与生活形成了互动。不过,越来越多的白领人群
湖北省北斗高精度位置服务“一张网”建立了一个高精度、高时空分辨率、高效率、高覆盖率的GNSS综合信息服务网,是实现湖北省现代化、大众化、集约化、高质量地球空间信息服
近年来,我国水产养殖业迅速发展,2017年水产养殖总产量5267.6万吨,已成为发展最快的农业产业之一。传统水产养殖模式作为渔业生产中最常见和最重要的养殖模式,在渔业发展过程
<正>中国大陆的选美活动始于20世纪80年代,近年来媒体与选美结合,选美风暴在中国愈演愈烈,不仅遍地开花,还衍生出各式各样的选秀活动,"快女"、"超女"、"梦想中国"、"我型我秀
21世纪以来,亚太格局发生着新的变化。随着2006年"日美澳印"战略合作构想的提出,日美澳印四国迅速拉近距离,开展紧密合作。这不仅由于亚太地区有着萌生日美澳印四国战略合作
近年来,O2O模式下的餐饮行业竞争越来越激烈,"美团"外卖、"饿了么"等线上订餐APP在大学生消费群体中越来越受欢迎,本文主要对基于微信平台的高校早点专递业进行SWOT分析,希望
海滨填土强夯时,土块会从夯锤排气孔飞出,影响设备和人员的安全,本文试对这一现象进行分析。