带有SpeechSense算法的AGC在音频系统中的应用

来源 :信息化视听 | 被引量 : 0次 | 上传用户:shifujia
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  [摘要] 自动增益控制(简称为“AGC”)可以在信号的输出端提供稳定增益,而不受输入端增益不同的影响。本文主要阐述了AGC的工作原理以及在音频系统中的具体应用。
  一直以来,传统的AGC在应用中存在一个严重的技术缺陷,即:当环境噪声大于所设定的阈值并且讲话者停止讲话时,AGC会自动将环境噪声放大至所需电平,此时在系统中会出现极大的噪声。如果我们将阈值提高又会出现讲话声音小的人无法正常启动AGC。Biamp开发了一种叫做“SpeechSense(人声辨识)”的算法,可以智能化地创建阈值和提供可选的“语言模式”,此功能限制了AGC只有在识别到人声的时候才对信号进行AGC处理,从而彻底消除AGC误启动的问题。在本文中,将会详细介绍SpeechSense算法的工作原理以及在音频系统中的具体应用和系统调试中的注意事项。
  什么是AGC?
  AGC是英文“Automatic Gain Control”(自动增益控制)的缩写。AGC在各个行业中的应用非常广泛。在模拟电路时代,AGC的控制精度和速率是由模拟电路的设计和电子元件的精度所决定的,我们称之为AGC的工作特性。
  大家都知道,现在的音频处理核心产品大都采用DSP芯片进行设计,因此我们将之统称为音频DSP处理器。实际上,与以往的模拟AGC电路不同,DSP处理器的电路设计大同小异,所采用的芯片也大都雷同。而所有的DSP处理器所支持的功能,如:滤波器、分频器、路由器、混音器、AGC等等都是由“算法”来实现的。因此,AGC的工作特性完全取决于AGC算法。
  为什么音频系统需要AGC?
  在实际的音频会议系统应用中,经常会出现以下这些情况:
  由于性别的原因或讲话者的各自习惯不同,有的人声音大些,有的人声音小些,有的人喜欢离话筒远些,有的人喜欢离话筒近些,这些情况会导致在音频系统输出端的音量幅度产生巨大的差别。
  AGC可以针对上述这些情况自动给与“增益补偿”。通俗一点的讲,当讲话者的声音太大的时候,AGC会自动降低增益,从而使会议的扩声维持在一个恒定的音量上;反之,讲话者的声音太小,AGC会自动提高增益,以确保系统仍然维持在恒定的音量。在音频系统中,AGC可以根据“要求”对声音信号自动给予“增益补偿”。因此通常用于调节各种会议系统的不同讲话者的声音音量平衡。
  传统AGC是如何解决这些问题的呢?
  首先,我们先来学习几个技术名词:
  ·Level源信号电平:讲话者的声音经话筒拾音,进入音频处理器的原始电平;
  ·Min Threshold最小电平阈值:启动AGC的最小电平值;
  ·Target Level目标电平:我们所需要的,经过AGC自动调整的电平。当输入电平大于所设定的Min Threshold,AGC会启动并自动根据所设定的Target Level对源信号进行增益补偿,并保持输入信号为恒定的Target Level。
  当源信号电平大于最小电平阈值(Min Threshold)但小于目标电平(Target LeveI)时,AGC启动并对源信号自动提高增益至目标电平(Target Level)。如图一所示:
  红色代表经AGC调整后的电平曲线,蓝色代表未经AGC调整的源信号电平曲线。当源信号电平小于最小电平阈值(Min Threshold).AGC关闭,从而防止AGC将噪声电平放大输出。见图二:
  当源信号电平大于最小电平阈值(Min Threshold),并大于目标电平(Target Level)时,AGC启动并自动衰减输入信号增益至目标电平(Target Level)。从而实现对输入信号的自动增益控制,并且在输出端维持一个相对恒定的音量。见图三:
  传统AGC在实际应用中的问题
  上文中我们提到,当源信号大于所设定的Min Threshold,AGC不工作。其目的是避免AGC电路错误地提升系统的噪声信号。只有在源信号大于某一设定值时,我们才认为此信号为有用信号并对此信号进行AGC平衡电平。
  这种设计方案看似非常合理,但在实际工作中却屡屡出错。比如:我们所用的所有语音通信软件(如:QQ、Skype、Lync等等)都支持AGC,但在实际使用中经常出现的问题是,当两端的人都不讲话的时候,可以非常明显地感觉到对方的噪声的提升。
  究其原因,在实际工作环境中,噪声的值实际上很难预测,它与有用信号之间有很大的重叠区域,但我们给定一个MinThreshold的时候,不是当有用信号非常低时AGC没有启动,就是噪声信号高于Min Threshold,AGC错误的启动。
  因此,在很长的一段时间,业内都没有一个彻底的解决方案。带有SpeechSense(人声辨识)算法的AGC的工作原理
  下面我们来看一下Biamp的AGC是如何解决这个问题的。
  其实只有一种办法能够彻底地解决AGC不能正确启动的难题。那就是,真正判断源信号是否为有用信号。通常在绝大多数情况下,AGC是用在传声话筒的链路里,因此,只要我们能够判断源信号是否为人声就可以了。
  其实,人声辨识已经不是一个新课题了。经研究,人们发现所有人类的语言有两种元素是与动物和环境声截然不同的。即Plosive爆破音和Fricative摩擦音。比如:中文的“破”和“刺”,或英文中的“Bob”和“Fish”。因此,只要我们对源信号进行采样并辨识是否有爆破音和摩擦音的存在,就可以判定此信号是否为人声。
  从原理上讲,似乎并不困难。但如前文所提到的,AGC的性能完全取决于算法。在极短的时间内(通常只有十几毫秒),SpeechSense AGC算法要完成对源信号的采样、分析、运算,因此对算法的效率要求极高,并且对信号的人声片断分析的准确性要求极为严格,要在最大限度内保证AGC启动的准确性。Biamp的AGC不仅可以快速准确的完成增益自动补偿,更重要的是它可以非常准确地辨识出源信号是否为人声,从而确保AGC只有在讲话者使用时启动,有效地避免了AGC误启动所造成的噪声过大的问题。SpeechSense(人声辨识)算法的AGC的参数设定   下面我们来具体看一下有关SpeechSense AGC的一些参数是如何配置的。
  输入源电平:通常,我们调试话筒的时候,要确保讲话者与话筒的距离比较合理,且用正常的声调对着话筒讲话,此时在输入源电平的读数应在“OdB”左右。由于传声话筒的灵敏度和指向性以及所在环境的空间噪声不同,在无人讲话的时候,输入源的最低电平应该在-40dB到-20dB之间(如电平显示过高,则表明现场环境噪声过大)。此时,最小电平阈值(Min Threshold)应该调整为略高于无人讲话时的输入源的最低电平。(有关增益结构的详细内容可到http://cn.Biamp.com/,点击进入audia,参考“增益结构”的视频)。
  输出增益调节指示:是指在AGC自动增益调节之后的音频输出补偿的数值。补偿是根据目标电平和输入电平之差所决定的。例如:当源信号的电平为-lOdB,目标电平为OdB,那么输出补偿为+lOdB。
  AGC增益保持时间:当AGC不满足启动条件时(比如:源信号电平低于Min Threshold或源信号为非语音信号),输出增益调节所保持的时间。例如:如图当系统检测到AGC在60秒后仍然没有启动,输出增益调节会自动归零。
  最大AGC提升增益:可以设定AGC自动增益的提升范围。最大值为30dB,在实际使用中,我们建议的范围是0-12dB。因为,如以正常情况来调试系统,一般会议系统的本地扩声的净空为6-14dB。也就是说,如果AGC将话筒的音量提升高过净空值时,系统会产生啸叫。因此,最大AGC提升增益永远略低于系统的净空值。
  最大AGC衰减增益:可以设定AGC自动增益的衰减范围。最大值为30dB。
  增益变化速率:设定AGC的增益变化速率。例如:如图MaxAdjustment Rate为5.0,当AGC启动时,会以每秒5dB的速率进行提升或衰减从而最终达到输出补偿的要求。在实际应用中,如果我们不希望与会者觉察到明显的声音增益变化,可以保持默认设置或适当降低速率。如在演示环节,可以适当提升速率,从而使受众明显感觉到AGC的工作。
  SpeechSense声音辨识:当此按钮关闭时,AGC恢复传统AGC的工作模式。当此按钮开其实,AGC只在检测到人声时才会启动,而任何其它噪声不会误触发AGC。
  Limiter On压限器:当此功能激活时,系统会自动监测AGC之后的电平值并在电平值高于+24dBu时进行压限,从而确保电平在峰值范围之内。同时压限器指示会点亮。
  AGC Active:当AGC启动时,此指示灯会点亮,
  Advanced:高级设定。点击进入,可以看到输入电平,噪声电平以及SNR信噪比电平。
  因为无法识别人声与噪声,所以所有的传统的AGC都没有这一选项。而Biamp AGC的SpeechSense的算法不仅能够准确地识别出人声,还可以进而精确地计算出人声与环境噪声之间的比值,即信噪比。
  因此,在这里可以对声音的信噪比进行设定。当源信号的信噪比高于设定值时,SNR为绿色。当源信号的信噪比低于设定值时,SNR为红色。AGC只有在SNR为绿色时,即:源信号的信噪比高于设定值时才能启动。
  那么SNR的调整在实际项目中如何应用呢?我们下面来看一个例子。
  第一种情况是,在实际应用中往往存在多只话筒,且话筒间距离较近。实际上我们只希望当演讲者有目的地对着话筒讲话时,AGC才根据电平自动调节,并且不希望讲话者的声音影响到邻近的话筒;另一种情况是,当讲话者远离话筒与其他的与会者细声交流的时候,他们当然不希望系统对这些“交流”也进行AGC自动增益补偿。由于传统的AGC不具备信噪比调节的功能,所以上图示例中,传统AGC就无法使用了,或者很难调试。而带有SpeechSense(人声辨识)算法的AGC,通过合理调节信噪比.就可以让每一只话筒处于需要的AGCI作状态。
  以上是对AGC在音频系统中应用的一些总结,如何更好地发挥AGC在具体应用中的作用还需要进一步的探索与思考。
其他文献
在事物的发展当中,时机往往起着非常重要的作用。就好像在几十年前就有了3D概念,但是直到电影《阿凡达》的出现,3D技术才迎来真正爆发。智能家居的发展亦是如此,随着谷歌和苹果的介入,这个三十多年来不断被热炒的概念,终于开始真正走近大众。从2014年开始,CES的风向标就开始从过去的电视、电脑等硬件转向了智能家居。市场研究公司Juniper发表的研究报告中预测,智能家居市场将由2012年的250亿美元、
期刊
千钧一发  时刻保持高度警觉性和实时的信息存取是执法、交通运输和能源行业至关重要的核心运行要素。在这些领域中,关键性的决策往往在一瞬间落实,因此可靠的通信设备将决定任务或使命的成败。  专业视听和信息通信技术已实现指挥与控制中心的无缝通信,确保中心的高效运作。各式各样的应用程序,如视频墙、中控和矩阵系统等,集成在一起形成一个强大的基础设施——指挥和控制中心。指挥中心全天候运行,永不下线或停机——为
期刊
专业视听和信息通信行业正面临一次革命性的市场洗牌,InfoCommChina 2015展会将助力市场更妥善应对其过程中的技术性创新和集成技术应用。全球新产品上市新闻发布会是InfoComm China供业界厂商推介新产品的全新平台,这些解决方案将创写21世纪的商业运作蓝图,敬请关注这发布会,抢先饱览最前沿的产品及技术。  在首次举办的“全球新产品上市新闻发布会”中,多个品牌率先首发新产品或技术,包
期刊
世界上第一座最长的双洞高速公路隧道——秦岭终南山公路隧道的安全监控中心采用了飞利浦(Philips)为其量身定制的大屏显示终端,为车辆安全护航。大屏显示终端为6x5拼接大屏,由30台超窄边55寸LED液晶显示器BDL5510XH和140台42寸LED液晶显示器BDL4250EL组成,支持全高清显示,178度的可视视角有效避免了视觉死角,满足全方位的监控需求。  高速公路安全监控需要7x24连续运行
期刊
广州市捷控电子科技有限公司最新力作伯爵系列高清智能矩阵同时兼容模拟信号、数字高清信号输入,并支持多种信号格式,覆盖目前主要的信号的类型,极其适合于模拟、数字信号共存的场合。只需要增加一张中控卡,就具备了强大的可编程中控功能,全面支持ipad、iphone、安卓等控制终端,并极大地降低了成本。系统汇聚了众多独家的技术,包括可扩展中控功能,具备强大的可编程中控能力;HDMJ输入音频环出,输出音频分离技
期刊
O+Omm无缝液晶拼接是上海派乐电气有限公司引进国内外专利及技术开发的高清液晶拼接系统,它对不能带有任何“黑框”的显示系统,如电视台演播背景、金融数据监控中心,重要人物显示系统,O+Omm无缝液晶拼接更显得难能可贵。
期刊
国家广播电影电视总局项目选用了杰云通(北京)技术有限公司的Jupiter PixeINet分布式显示控制解决方案。该系统性能稳定,使用300个输入输出节点共同组合支撑4x32的超大显示屏,显示控制效果优良。  PixeINet能将大量的、多样化的视频源连接至同样大量的、多样化的输出设备上。通过使用包交换技术,任一源信号可作为单一窗口输出至任一显示设备上,或跨屏显示到显示墙上。PixeINet是纯数
期刊
2014年,到处都在充斥着“智能家居”的字眼,智能家居开始走向普通消费群体。尤其在2014年年初于拉斯维加斯举办的CES国际消费电子展上,众多厂商与企业尤其是传统家电等消费类电子企业掀起一波智能家居热潮。时隔一年,2015年CES展再次在拉斯维加斯如期打响,展会上,一大批传统家电与其他消费类电子企业纷纷展出自家全新升级的第二代或第三代家居智能化产品,使得智能家居的发展速度、性能与体验得到进一步加推
期刊
2015年1月6-9日,万众瞩目的2015年国际电子消费展(CES)在拉斯维加斯盛大召开。这是一次破纪录的CES Show,今年的展会打破了CES有史以来所有的纪录,成为史上最大最令人惊叹的CES展。今年的展会拥有超过220万净平方英尺的展览空间,创其历年展览面积史上最大纪录,聚集了3,600家来自全球各地的知名参展商,以及来自130多个国家和地区的参观者约17万人次与会参观,其中国际观众达到45
期刊
北京时代奥视数码技术有限公司的DSY系拥有监视器屏幕本身特有品质和优势的拼接设备,近乎完美的还原图像质量保证整体画面的高度一致性。在色彩、亮度、锐度、对比度等参数方面,DSY系列产品允许用户通过摇控器自己调节,由于校准基础一样,不管用户如何调节屏幕,显示都是一致的。因此,在色彩调整方面无论是追求画面真实还原,还是追求色彩亮丽,DSY系列产品所有的屏幕都可以保持一致性。
期刊