基于WebRTC的多媒体处理引擎语音功能的研究和实现

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:cloudwindbase
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机网络的快速发展,社会的不断进步,空间上的距离已经不再是人们沟通交流的障碍。处在不同地域的人们,可以方便的使用音视频应用与其他人进行沟通交流。这些音视频应用提供了方便廉价的交流方式,给通信行业带来了翻天覆地的变化。大多数音视频应用依靠多媒体处理引擎来实现,音频引擎及其包含的音频处理算法是其中的重要组成部分。普通开发者独立实现一套音频引擎的难度是非常大的,需要把音频媒体的采集播放,音频编解码,音频处理以及实时传输控制等技术结合,我们可以依靠谷歌开源的Web RTC(Web Real-Time Communications)技术来实现。为了能够更好的利用Web RTC中的相关技术,实现完整的音频引擎功能,本文对Web RTC的音频引擎进行了深入的研究,并对其中涉及的音频传输,编码以及处理算法进行了分析,重点对其中的音频处理算法原理进行了深入剖析和研究,并对音频处理算法的实际性能进行了测试。为了改善其中噪声抑制算法的性能,我们提出并实现了一种针对实际音视频会议系统中常见噪声的基于深度神经网络(DNN)的噪声抑制算法。实验结果表明,基于DNN的噪声抑制算法在低信噪比条件下,对于白噪声、风扇噪声、空调噪声、气流噪声以及人群嘈杂噪声都有着比Web RTC的噪声抑制算法更加优异的性能。尤其对于人群嘈杂噪声,基于DNN的噪声抑制算法在多项指标上都有着明显的领先。最后,本文实现了Web RTC的音频引擎的完整功能,并对音频引擎的功能进行了测试。本文的全文规划如下:第一章为绪论部分,介绍研究背景,Web RTC的整体架构以及音频引擎的整体架构。第二章对Web RTC音频引擎的音频编解码与传输部分进行研究,重点研究了Web RTC推荐的音频编解码器i SAC、i LBC,Net EQ算法,还有用于实时多媒体数据传输的RTP与RTCP协议。第三章对Web RTC音频引擎中的音频处理模块进行了研究,重点剖析了其中回声消除、噪声抑制以及语音端点检测算法,并且对于算法的性能进行了实验测试。第四章详细介绍了提出的基于DNN的音频降噪算法的算法原理,实现了该算法,并对算法的噪声抑制效果进行了客观评价,还与Web RTC的噪声抑制算法的性能进行了比较。第五章为对Web RTC音频引擎的实现与性能评判以及Web RTC音视频系统的完整实现与测试。第六章为总结与展望。
其他文献
大型城市多采用地下变电站解决用电需求剧增和土地资源有限的矛盾,由于噪音限制和散热需求的不同,地下变电站中多采取分体式结构,即将变压器箱体和冷却系统分开布置。而地下变电站变压器分体冷却系统的冷却效能是影响其温度场并决定其绝缘老化速率的重要因素之一。根据分体式变压器温度场及流场的分布情况准确快捷地计算其冷却系统的冷却效能对合理评价变压器冷却系统的冷却性能、判断冷却装置的运行缺陷具有重要意义,是变压器设
学位
截止目前,中高端精细等离子电源市场一直被欧美企业所垄断。国内虽有研究精细等离子电源的文献和厂家,但实现批量化生产的产品还很少。为了改变这一局面,本文针对精细等离子电源产业化过程中的诸多关键技术进行了研究与试验,以便提高产品各方面的可靠性和一致性。本文首先根据精细等离子切割技术的工艺要求,研究了交错并联Buck电路拓扑,对功率回路元器件进行了设计选型,建立了功率回路的电路平均法小信号模型;利用补偿网
学位
本文针对多智能体同步发电机的状态估计及其一致性跟踪问题提出了一种基于滑模控制器的高增益观测器。由于同步发电机被并入到分布式发电机单元时,微电网的稳定性和可靠性会受到很大挑战,因此本文通过利用滑模控制器实现了有限时间下同步发电机状态轨迹的收敛。此外,所提出的控制器还具有误差收敛速度快、抗干扰能力强等优点。另一方面,系统若要具备有效识别多智能体同步发电机非线性响应的复杂性,且通过为高增益观测器选择足够
学位
随着电力电子技术的发展,电力电子系统的运行功率等级越来越高,并且常常应用于复杂的工况下。为确保电力电子系统的安全运行,降低因意外故障带来的经济损失,对电力电子系统的可靠性进行综合评估测试并形成完整的可靠性理论评估体系具有重要的现实意义。其中,对占故障主导地位的功率半导体开关器件、电容器等元器件的深入研究也尤为重要。电力电子工况模拟技术可以更方便、更准确地对电力电子关键部件以及整个系统的可靠性参数进
学位
中文拼音输入法是一种便捷的计算机汉字输入解决方案,它的使用体验依赖于其核心组件:拼音汉字转换模块。近几年,随着相关模型和技术的发展,深度学习已经被广泛应用于各种自然语言处理任务中。然而在输入法相关的研究领域这一块几乎是空白的。本文主要针对相关深度学习技术应用于拼音输入法研究的可行性进行分析,从输入法音字转换模块、词典更新模块、模型预训练技术、辅助输入法构建四个方向对输入法进行改进,期望带来一定的用
学位
依存句法分析是自然语言处理中的核心任务之一,它通过分析词与词之间的依存关系来确定句子的句法结构,产生的结果可以用于强化许多下游任务。基于转移模型和基于图模型的方法是依存句法分析中的两类经典方法:前者以抽象状态机为基础,使用一系列转移动作构建句法树;后者以图论为基础,使用最大生成树算法在整个假设空间中寻找最优的句法树。本文探索了这两类方法各自的变体,简单优先模型和句法头选择模型,并分别提出了有效的神
学位
在信息化时代,理解不同语言的文字是人们获取国际化信息必不可少的途径。在跨语言交际中,专业化的人工翻译由于成本高、耗时长等因素难以普及,快速而又便捷的机器翻译应运而生,成为人们日常生活中难以或缺的一种工具,也为人工翻译提供了重要辅助。机器翻译是自然语言处理研究领域的一个重要分支,主要是依靠计算机从语料库的平行语言对中自动学习,然后利用所学的知识对其他句子进行翻译的过程。随着深度学习和神经网络技术的迅
学位
随着社会经济的高速发展和市场竞争的加剧,绩效考核对企业管理的作用愈发重要。传统的绩效考核采用填写考核报表等方式,存在报表数量多、工作效率低下和人工统计分析误差等问题。这些问题导致绩效考核失去原有的意义,不仅浪费了企业的时间和金钱,还未能为企业的竞争力和综合水平增添任何价值。因此,开发和设计一套符合公司实际需求、科学的绩效考核系统至关重要。该系统能提高企业自身的竞争力,促进员工的职业发展,并提高绩效
学位
喷水推进技术主要以船舶从船尾喷出反向水来获得推力。该技术的具有高机动性、噪声小及操纵性好等优点,并在国内外各领域得到了广泛的应用。本文以某型号的喷水推进船舶为建模对象,通过机理分析及系统辨识等方法建立喷水推进船舶矢量控制模型、喷水推进船舶操舵倒航模型和喷水推进船舶柴油机模型,并且基于上述模型进行船舶航向控制、路径跟踪和动力定位等航行任务的仿真研究。本文主要以日本操纵性数学模型研讨组(Maneuve
学位
随着超级计算机和数据中心的发展,其对处理速度和传输容量的要求越来越高,传统的电互连技术难以突破传输带宽、互连密度及功耗方面的瓶颈。光互连技术因为具有高带宽、低延迟、低功耗、低传输损耗和抗电磁干扰等优势,能很好的满足超级计算机和数据中心的需求,正逐渐取代电互连向板级甚至芯片级互连方向发展。聚合物作为制备光波导的一种材料,具有成本低、集成密度高、与传统印刷电路板(Printed Circuit Boa
学位