全景声技术及应用

来源 :卫星电视与宽带多媒体 | 被引量 : 0次 | 上传用户:yuzhangbin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  【摘要】本文以全景声为核心内容,阐述全景声的诞生历史、技术原理、技术发展以及实际应用。通过图文的形式更加直观的阐述观点和问题,并结合实际加以求真论证。作者希望通过本篇论文帮助大家认识了解全景声的技术和应用。
  【关键词】Ambisonics;VR(虚拟现实);音频编解码;WAVES;Pro Tools
  中图分类号:TN94                     文献标识码:A                     DOI:10.12246/j.issn.1673-0348.2021.06..005
  随着我国物质经济实力的不断提高,国民对于物质文化的需求也水涨船高,特别是对于精神文化需求逐年递增。为此我们的技术储备也必须不断地完善进取才能满足人民日益增长的物质文化需求。建国初期在黑白电视时代,我们声音只有一个通道叫单声道。后来随着技术的进步,彩色电视时代步入家庭从而加速了声音单声道到立体声的转变。到了高清1080P甚至超高清4K分辨率时代,我们诞生了5.1、7.1环绕立体声。技术的飞速发展给人民群众带来了更加接近真实的视听感官体验。2010年以后,随着VR头戴设备的诞生,我们进入了一个颠覆以往所有视听技术的时代——虚拟现实!那么声音便诞生出了与之相适应的技术革命——全景声!
  1. 全景声技术概述
  讲到全景声我们不得不先从Ambisonics这种声音格式讲起。那么什么是Ambisonics?
  1.1 Ambisonics的前世今生
  说起Ambisonics的历史是非常曲折的。Ambisonics以牛津大学教授Michael Gerzon(1945-1996)的理论成果为基础,二十世纪70年代,由英国国家研究发展公司主持开发Ambisonics,并成功实现了“四声道理论(quadraphonics)”的高保真沉浸空间全景360声音。
  当年Ambinsonics搞得风风火火,甚至注册了商标(2010年过期)并申请了专利(大部分已经过期)。是的,尽管Ambisonics具有当时最完美的功能和效果,英国国家研究发展公司具有雄厚的技术基础和许多优势,但是Ambisonics并没有获得商业上的成功。在实际推广过程中,却由于种种因素的制约,始终没有形成大规模的市场需求,最终被搁置,甚至在一段时间内只有在爱好者粉丝中的坚持才算幸存下来。即使制作Ambisonics话筒方面一直有“持续性”研究的公司,有商业的回报,也经历了无数次转手收购才存活下来(先是Calrec,后来相继被AMS、Siemens、Soundfield Research、现在是RODE所收购)。其实只要再撑几年,随着技术的不断进步,特别是VR虚拟现实的发展变能让Ambisonics重新红火起来。由此我们可以看到,声音技术的诞生到应用商业化是漫长的过程,甚至是有赖于视觉的技术革命才能得以发展。
  1.2 Ambisonics的定义
  Ambisonics是一种用于记录,混音和重放三维360度音频的方法。它是在20世纪70年代被发明的,但直到最近随着VR行业的发展,全景声音频解决方案才被更多人认知。
  Ambisonics音頻格式有时会与传统环绕声技术相混淆,但他们是不一样的,是有很大的区别,而正是这些差别特性,造成新兴的VR和全景视频都采用Ambisonics而不是经典的环绕声格式作为首选音频格式。
  虽然传统的环绕声技术比简单的双声道立体声更加有沉浸效果,但是它们基础的原理是相同的,它们都通过将音频发送到特定的扬声器阵列来创建声音场景。立体声将音源发送给两个扬声器、5.1环绕立体声将音源发送到6个全频扬声器和一个超低音、杜比7.1发送到7个全频扬声器外加一个超低等等。
  相比之下,Ambisonics与其他多声道环绕声格式不同,其传输通道不带扬声器信号。相反,它们包含与B格式声场无关的扬声器,然后将其解码为听众的扬声器设置。这个额外的步骤允许音频工作者根据声源方向而不是扬声器的位置来思考设计。并且为听众提供了用于播放扬声器的布局和数量。因此,大大增加了灵活性。Ambisonics音频格式可以解码任何扬声器阵列。并且可以完整的、不间断的还原音源而不受任何特定编解码播放系统的限制。如图(1)是从立体声、5.1到全景声的3D人耳模拟图
  1.3 Ambisonics的技术解析
  广泛应用于VR和全景视频的Ambisonics音频格式其中包括一种称为Ambisonics B格式的4通道格式。Ambisonics可以理解为M/S立体声拾音制式的三维扩展。Ambisonics音频格式为高度和深度增加了另外的差异通道。所得到的音频信号集称为B格式(Ambisonics B Format)。它使用至少四个通道来再现完整的三维声场。是一种拾取和播放声音的技术,专门用来模拟原始三维声场效果的声音系统。
  它通过拾音“四面体阵列”(麦克风振膜排列的这种不寻常的布置被称为四面体阵列,由四个指向不同方向的心形话筒组成)实现三维度全覆盖的360°沉浸式全景环绕声音。Ambisonics除了水平X Z轴向环绕声音,还包括拾音位置或者听众即Y轴上下的声源。与普通环绕声不同,播放效果更类似于Dobly Atoms(这里必须强调一点的是Dobly Atoms目前只解决了半球形的声场,并没有解决720度球型声场的重现与还原)。如(图2)是一个全景声话筒,来自RODE公司的NT-SF
  1.4 Ambisonics的编解码
  编码:一个简单的Ambisonic panner(或编码器)可以获取源信号S和W两个参数,即水平θ和仰角?。它通过以不同的增益将音频信号分布在Ambisonics组件上,将信号源定位在所需的角度:   全方位的W通道始终获得相同的恒定输入信号,无论角度如何。因此,它的平均能量或多或少与其他通道的平均能量相同,W衰减约3dB(精确地除以2的平方根)。我们认为他们的价值在角度和仰角,并将结果与输入信号相乘。其结果是,输入在所有组件中完全相对应的麦克风拾取它一样响。
  解码:基本的Ambisonic解码器与一组虚拟麦克风非常相似。对于完美的规则布局,可以通过将虚拟心形麦克风指向每个扬声器的方向来生成简化的解码器。这里是一个正方形:
  的迹象X和Y组件是重要组成部分,其余都是增益因素。该Z组件被丢弃,因为不可能在一个平面上只用四个扬声器重现高度线索。实际上,真实的Ambisonics解码器需要许多心理声学优化才能正常工作。如图(3)是用于方形扬声器布局的朴素单频段同相解码器。
  当然了,这篇文章我们讨论的主要是Ambisonics的一阶形态,更高阶的形态我们在这里不展开阐述,以图4作为参考。
  图解:Ambisonic B格式组件的视觉表示直至三阶。黑色部分表示极性反转的区域。请注意前两行如何对应于全向和八字形麦克风极性图案。
  了解了全景声技术的基石,我们不难推出全景声的概念了。首先来说人类只有两个耳朵,但可以在三维空间中定位范围(距离),上下前后左右方向、以及任意一侧。因为通过大脑,内耳和外耳(耳廓)的双耳时间差,双耳响度差一起工作来推断位置。这种将声源本地化的能力可能在人类和祖先中已经发展成为一种进化的必要性,因为眼睛只能看到观看者周围的世界的一小部分,并且视觉在黑暗中受到阻碍,而听觉不受光线的影响,声源本地化的能力则以不同的精度在所有的方向起作用。那么全景声用一句话概括就是一种全球通用的环绕声技术:除了水平面之外,它还覆盖了听者上方和下方的声源。它高精度的还原了真实环境下人耳的听觉体验,而且这种声音的还原再现很难让人分辨出这是真实的还是虚拟的。
  2. 全景声制作流程
  2.1 全景声的声音采集
  全景声的声音采集目前采用全景声话筒外加单声道点话筒分轨录制,最后通过DAW混音。目前市面上的全景声话筒种类不多,国外的有森海塞尔AMBEO VR MIC 、RODE NT-SF1,国内有时代拓灵Twirling720。他们大多采用“四面体阵列”拾音,需要强调一点的是,采用全景声话筒录制,接口箱、声卡或者调音台必须留有4路XLR接口,以便接入4路音频信号。如图(5)是SENNHEISER AMBEO VR MIC的话筒内部图。
  我以声卡Zoom F8外加AMBEO VR MIC 话筒简述录制全景声步骤。
  将录音设备连接到三脚架上,调整角度。理想的情况下是将它尽可能的以垂直方向靠近相机。如果它的距离与VR摄像机太过遥远,声音便不会那样的身临其境,因为你的眼睛(相机)和耳朵(话筒)应该是在同一个水平上的。拧紧话筒支架,将话筒指向朝上。
  将XLR线连接到Ambeo底部,按顺序将四通道的输入插到F4多轨现场录音机的输入接口。
  连接好AMBEO VR MIC话筒和ZOOM F8录音机后,进入菜单点INPUT,选择希望录制的Ambisonic格式。F8的固件4.0现在包括Ambisonics解码,允许以以下格式录制360个音频:●FuMa●Ambix●AmbisonicA(立体声监视器)●FuMa(双)●Ambix(双)●FuMa+Ambix●FuMa+AmbisonicsA●Ambix+ Ambisonics A
  录制Ambisonics所有格式都会记录在Poly WAV文件。当在Ambisonics模式下使用F8时,增益会自动关联,因此可以使用一个旋钮进行控制。这对于正确监视和调整ambisonic录音中的音频电平至关重要。采样率只能设置为192 kHz时,Ambisonic模式关闭。必须说明的是Ambisonic只能文件保存为4轨Poly文件,不能保存为多单声道或立体声文件。在Ambisonic模式录音时,可以点PFL监听输入声音,当PFL为PFL模式下,你听到的是转换Ambisonic B格式之前的声音,当PFL为SOLO模式下,你听到的是转换Ambisonic B格式之后的声音。
  在编码的实际应用上,AMBEO只需要通过一对编码立体声输入通道和4个解码重放通道(reproducing channel),就能够实现对听众周围360度三维范围内声场效果的精确模拟和复制。当然,所使用的输入通道和重放扬声器越多,听众的听音环境就越接近于三维体圆球形。从编解码方式来看,采用Ambisonics方式录制得到的声音信号可以通过计算变换后得到很多相关的格式,双声道,立体声、5.1、7.1,甚至是11.1、22.2等各种多声道环绕声格式。
  2.2 全景声的后期制作
  声音录制下来以后就是后期的制作,全景声的后期制作和原来的立体声,环绕立体声5.1或者7.1完全不同,它需要DAW挂载特殊的全景声插件来处理720°度声像的变化,而之前不管是立体声还是5.1、7.1环绕立体声都是在一个平面即360°上来通过声像位置的变化来设计声场。
  DAW的选择:业内通用的DAW是avid的Pro Tools。Pro Tools HD 12.8.2使用高保真度立体声音响开启了新的3D音频工作流程,并提供开始使用Facebook Spatial Workstation插件创建虚拟现实(VR)和360音頻内容的工具。同时最新版的Pro Tools 12.8.2为第一,第二和第三阶的Ambisonics增加了新的总线和音轨格式,为插件创建和操作Ambisonics音频和混音提供了框架。First Order总线有4个通道,并且是由传统声场麦克风产生的格式。更高阶的高保真度立体声系统会使用更多通道(第二阶为9,第三阶为16)以增加混合中点声源的位置分辨率。   在手机上观看全景视频,或者使用Samsung Gear VR或Google Cardboard等头戴式显示器(HMD)。Pro Tools为这些体验提供了一个完整的球形视图,通过用手指滑动或转动头部来环视四周。由于Ambisonics具有统一的环绕声音场,可以与播放时的视觉体验相匹配,因此它是360和VR音效的理想媒体。在大多数情况下,全景视频和VR的声音通过耳机传送。当移动屏幕或转动头部时,设备会旋转Ambisonic的声场以匹配观看方向,并将其转换为立体声耳机输出。
  使用熟悉的后期制作或音乐混合工作流程从头开始制作Ambisonics格式的内容。Dolby Atmos Renderer插件与Facebook Spatial Workstation集合和Audio Ease的360pan套件中的插件一样,可将混音源(单声道,立体声,5.1等)定位到Ambisonics混音。如图(7.1、7.2)是Pro Tools制作全景声的软件界面
  监听的选择:在监听部分目前有两种途径,一种是以标准制式摆放全景声监听音箱。这种方式以杜比5.1.4、7.1.4扬声器制式为业内标准,主要针对电影和电视行业的音频后期混音监听。如图(8)是杜比5.1.4的音箱位置图。
  除了扬声器监听外,还有另外一种途径监听全景声的制作那就是耳机监听。市面上现在已经推出了全景声的耳机监听,在DAW中也加入了耳机监听全景声的插件包。如图(9)是WAVES的 B360 Ambisonics Encoder。
  B360 Ambisonics Encoder能够将单声道,立体声和环绕声音频转换为Ambisonics B格式音频,从而为YouTube 360,Facebook 360或其他虚拟现实(VR)视频提供360°全景混音。Ambisonics B格式是制作360°全景声场的行业标准。与传统基于声道的单声道,立体声和环绕声不同,B格式能够用4个声道的信息表现整个全景声场。当你想要将一些单声道,立体声或环绕声音频素材添加到Ambisonics混音当中,你需要先将它们转换为B格式。B360 Ambi- sonics Encoder能够让你通过两个基本步骤完成转换。你也可以将B360插入到你的立体声或环绕声母线中,它会帮你把整个混音转换为Ambisonics B格式。你也可以将B360插入每一个轨道,从而分别将这些声音精确地定位在立体混响混音的3D声场当中。
  在以上两种方式中,你都可以通过B360将多种类型的声音素材置入到一个三维声场当中,同时还可以控制混音的宽度,高度和角度。通过直观的界面和流畅的操控,B360将让你的立体混响混音流程变得前所未有的快捷,简单。
  关于全景声的耳机,我在这里介绍一下Mobius: Immersive Cinematic 3D Audio Headphone。如图(10)
  图10:Mobius: Immersive Cinematic 3D Audio Headphone
  Mobius捆绑了来自Waves的最新3D音频插件,包括B360 4编码器和NX 4 Mix Room。对于任何使用虚拟和增强的人来说,这两个关键工具都是重要的。
  Mobius的平面磁驱动器针对空间音频进行了优化,先进的3D声音仿真算法,使用6轴(四元数)跟踪与3轴加速度计和3轴陀螺仪进行连续智能头部跟踪,使声场随着头部位置的变化而发生变化。使用Mobius的实时头部追踪功能编辑,将单声道,立体声,5.1或7.1元素引入DAW的时间线。Mobius还可以精确地跟踪每秒1000次的最微小的头部动作,并提供3D 仿真算法用来创建房间内声音的空间混响感和直达声。
  Mobius允许使用的音频工作站有(Avid Pro Tools,Logic Pro,Ableton Live,Digital Performer,Nuendo,Cubase,Reaper等)并与控制界面实时创造性地刻录音频,而无需佩戴VR耳机。
  3. 全景声应用当下处境
  与传统体验方式一样,4体验中声音与画面同等重要,是衡量整体体验质量高低的一项关键指标。而空间音频则是构建逼真VR体验的关键。空间化的声源提供了三维位置数据,与杜比全景声技术十分相似,可以让用户时时感觉到声音传来的具体位置,营造一直极强的临场感。
  从电影电视到游戏音乐无不与声音相关,2017年世界范围内个人终端只有YouTube和Facebook是支持全景声播放的公众性开放平台。2019年后中国的爱奇艺和腾讯等视频平台开始陆续支持支持少量全景声音视频节目。但全景声的电视节目目前还微乎其微,目前最高也就停留在环绕立体声。换句话说,即便有,对于受众来说从终端输出这些声音需要从编解码到专业软硬件等一系列的技术性问题需要商业化解决方案。群体性的观众规模目前主要集中在杜比全景声影院。遗憾的是目前全景声影片和全景声影院与目前传统立体声电影和影院比仍旧比例失衡。因此,发行平台数量上的限制也就使得内容创作者制作全景声的热情大大降低。毕竟经过自己潜心打造的东西不能得到有效的传播对于任何人来说都不是那么容易接受的一件事。不过,随着人们越来越重视声音的逼真性体验感,我们有理由相信未来主流媒体以及互联网音视频平台将陆续全面支持全景声的影音节目。
  参考文献:
  [1]来自维基百科:https://en.wikipedia.org/wiki/Ambisonics
  [2]来自avid官网:http://www.avidblogs.com/Ambisonics-vr360-audio-pro-tools-hd/?promo_id=ProToolsHD,productteaser,ProAudioAmbisonicsBlogPromo,10182017&promo_name=ProAudioAmbisonicsBlogPromo&promo_position=productteaser
  [3]来自插件提供商waves:https://www.waves.com/nx
  [4]来自杜比官网:https://www.dolby.com/cn/zh/brands/dolby-atmos.html
  [5]來自audeze的官网:https://www.audeze.com/products/mobius-series/mobius-creators-edition
  [6]来自同期录音网:http://www.locationsound.cn/portal.php?mod=list&catid=31
其他文献
【摘要】随着社会的不断发展,科学技术成为推动国家迈入新时期的第一生产力.在这种大环境下,数学学科作为支撑科学技术发展的基础学科必须跟上时代经济的步伐和新的课程体系改革的要求.因此,教师要对学生提出更严格的要求和更高的期待值.初高中交接的这个时期是学生必须平稳度过的一个关键时期.高中数学教师从学习迁移理论的视角下对这一棘手的问题提出了自己的看法,并在教学实践中试验了自己提出的理论策略,得到了较好的成
【摘要】随着卫星通信技术的发展,以及在最新通信、定位和导航领域中的应用,卫星通信技术为各个领域提供了方便,从而也促进了卫星通信的快速发展。在实际的实施过程中,卫星通信面临的主要问题是保证各种干扰存在的情况下卫星通信系统的稳定性和安全性,这主要表现在抗干扰能力上。因此,本文分析了影响卫星通信的因素以及当前卫星通信抗干扰技术的现状,并展望其发展趋势。  【关键词】卫星通信;抗干扰技术;多波束天线  中
【摘要】用户探索和解析多媒体内容是基于内容检索的功能上去进行的,其次在多媒体数据中视频的运用会占绝大部分,它会随着时间的变化而去改变,具有非常显著的跳跃性和不稳定性,不能用静态特征去概括,总结起来会对内容检索造成很大的困难。有效的对视频数据进行处理和把控是完善其技术研究的主要目标,做好相关专业技术处理才能从基础层面去改善情况。本文就主要探讨在内容检索的基础下,如何对视频处理技术进行创新和改善,并提
【摘要】移动自组织网络属于无中心网络,在军用通信领域以及民用应急通信领域均得到了广泛的应用。集中式TDMA数据链路层协议具有较好的网络管理能力以及较好的业务资源分配能力,但是目前这种数据链路层协议的开销较大,本文首先对当前热门的自组网数据链路层协议进行总结,然后就集中式TDMA数据链路层协议提出一种低开销的协议改进方案以供大家参考。  【关键词】自组织网络;数据链路层;TDMA  中图分类号:TN
【摘要】随着我国新媒体时代的快速发展,各行各业在发展的过程当中都遇到了一些新的机遇和挑战。计算机技术在如今的广播电视工程当中的应用,也是越来越重要。但是目前的应用效果并不理想,为了能够有效的去将这项技术更好地去应用到广播电视工程当中,充分的去发挥出这项技术的优势和特点,需要积极的去学习一些相关的技术,改善之前的应用方式,这样才能够充分地去发挥出多媒体技术的应用效果和作用。本篇文章就是以多媒体技术在
生活化教学对高中学生的政治学习有很大影响。通过生活化教学可以更好地将政治教学内容与生活实际联系起来,为学生创设更真实的学习环境,增强学生的生活体验,有助于学生更积极地参与特定的社会活动,对学生的全面发展有重要的促进作用。  在传统教学中,教师更注重学生的知识掌握情况,而不是学生的情感体验,导致学生一直处于被动学习状态。现在的课堂更加注重学生的长远发展,因此,高中政治教师在创设生活化情境时,必须让学
【摘要】现今,社会信息技术的应用越来越广泛,涉及制造、科技、教学等方面,将人们的生活变得更加便利,加快了人们生活的脚步和社会进步的速度.信息技术在教学方面的作用越来越显著,因此,随着社会的不断发展,信息技术这门课程逐渐融入教学课程中.对于小学生来说,小学数学比较抽象,因此,教师在教学的过程中要紧紧抓住小学生的心理特点,结合他们喜爱的东西创设出有趣的数学问题情境,引起他们思考.本文将基于信息技术条件
面对走向教育信息化2.0的初中道德与法治课堂,教师应该从教学形式、授课方式、教材载体、教学资源、学习方式、学习时空等方面进行改变,同时,还要坚持育人为本的原则不改变、
【摘要】在高中数学教学阶段,类比推理是很多教师都会用到的一种教学方法.它旨在通过不断地进行知识的整合、分类、归纳从而得出方法和结论.尤其是学生处于高中这一特定的学习阶段,类比推理法的应用就显得尤为重要.本文具体从类比推理的实际教学应用入手,分析类比推理在高中数学教学阶段的具体运用策略.  【关键词】类比推理;高中数学;应用分析  高中数学的知识点较之以前更加复杂、深奥,它对学生的逻辑分析、推理能力