论文部分内容阅读
【摘要】随着深度学习技术的不断发展,给人类的日常生活带来了深远且重要的影响。并且于各行各业都已经取得重大的科研成果,对生产效率的提升具有十分重要的帮助。并且其依托于计算机的强大的处理能力,并借用人工智能技术,能够在极短的时间内快速实现,相对于之前传统的人工处理方式,无疑是具有巨大的优势。而广电在未来上十年内需要重点研究用音频节目播出为主的电视广播电视行业需要怎样充分的使用深度学习技术来提升工作效率,并且提高节目的质量,减少制作的成本等。
【关键词】深度学习技术;广电;音视频;节目制作;应用
中图分类号:TN94 文献标识码:A DOI:10.12246/j.issn.1673-0348.2021.10..015
1. 深度学习
在深度学习技术出现之前,人们普遍使用传统的机器学习算法,比如决策树和支持向量机等等。此类底层的学习方法只是把输入的数据替换掉一两个连续的表示空间,基本都是应用基本的变换,虽然这些技术在当前有着十分成熟和完整的理论基础,但是在处理复杂问题上却有着明显的不足之处。所以,我们务必要用尽全力把初始化的数据应用更为合适的方法进行处理,同时也要设置好数据的表示层,而这就叫做特征工程。目前大量的实践结果表明,手动设置的特征工程往往不能在一个较为复杂的环境下得到良好的体现。而在深度学习中这一环节却完全是通过自动化实现的,并不需要人为的手动设置,是一个简单的学习模型。
深度学习中的深字,即指的是神经网络中的层数深,而关于深度学习的变革主要在于模型能够在相同的时间中一起学习所有的表示层,并不是通过连续依次的学习。而共同特征的学习其优势之处在于只要模型内的某个特征改变之后,其所有依赖于此特征的单元都能够自动的调整适应,无须人为的操作设置。全部都通过单一的反馈信号来进行监督,模型之中任务地方的变化都是为了实现最终的服务目标。此类方式比无休止的叠加浅层模型具有更加强大的功能。因为其能够通过把复杂抽象的标识拆分为多个中层空间的学习来表示,而每个空间也只是上一个空间的简单转换,简单来讲就是每一层的变化都需要考虑上下两层的变化,从而也就使得深度学习的展现能力比传统的浅层学习更为的强大。
2. 关键技术
2.1 模拟人的思维
人工智能技术之所以迅速发展主要是因为其通过计算机的高速计算以及海量存储的优势来模拟人的思考和工作的方式,用于逐步的替代容易出错和重复性较高的工作。自从英国著名的科学家图形提出图灵实验来,很多国家都在致力于实现智能化计算机的道路上的呕心沥血。伴随着计算机算法的逐渐优化以及硬件性能的不断提高,在很多领域比如图形学,视觉学,语音处理以及自动翻译等都广泛的应用了人工智能技术。
人工智能技术体系中最为核心的技术还是深度学习技术。在最近的五年中,得到了显著的提升。而传统的人工智能技术则主要是依靠着数学的推理和逻辑证明等方法来完成对公式的推理和理论证明。可是,关于怎样模拟人类大脑活动这一方式,一直以来都未能达到一个比较理想的模拟状态。而从仿生学的角度来看,很多的生物学家试着将大脑中的数以亿计的相互连接的神经单和同样具有输入输出的通道并且还能够处理信号的计算机模块进行计较。从而提出了人工神经网络的模型,从而给现在的人工智能发展奠定了良好的基础理论。因此其从本质来说,深度学习也就是在神经网络模型的基础上增加了神经节点,从而深化了网络层次,使其不断地变形和优化,最终演变成为了一个可以自动权重求解的工程模型。而且深度学习的模型中,有着至少三层的神经结构,而这三种神经结构分别对应着输入层,隐藏层以及输出层。而每个神经结果中又包含着数以百计的神经单位。每个神经单位中又包含着三个部分,分别为连着前一层的入口,与下一层链接的出口,以及中间部分的计算函数。其中计算函数主要的作用是对输出的阈值进行一个判断。而根据大量的科学实践理论得出,非线性原函数又是性能和计算能力最好的。
2.2 深度学习的三步
深度学习我们可以科学的将其分为三个过程,也就是练习,验证与测试。首先我们要根据这三个过程分为三个没有互相交集的集合。而人工智能中的特征工程就是会对这些样本数据进行预处理降维和去噪。把复杂和冗余的数据将其从高维空间转换为低维空间,逐渐提升系统对其的辨识度,降低互相之间的关联性,从而减少下一步训练模型的难度。而在数据进行训练的过程中,此模型首选会依据样本数据的各个维度进行随机的权重分配初始化工作,并且在多次的迭代工作中依据其判断结果对权重大小进行相应的修正。而这方面的优化算法多种多样,不过大致可以分为两类,一种是单向的,完全根据模型的预测性能来定义权重的大小。此算法的优点是应用起来较为简单,能够适用于大多数的线性分类问题,缺点是训练时间较长,无法实现全局收敛。而另一种算法则是经过优化的反向传播算法。此模型能够在每次迭代后依据实际效果对其模型权重进行调整并及时的反馈给中心控制台,经过不断的调优实现全局的优化。而其缺点也是训练时间较长,模型相对庞大,并且需要更大的资源以及计算能力支持。
2.3 在音频信号中的处理
数字音频技术就是对音频信号进行加工处理,将其转换为0和1组合而成的编码,这样的数据格式首选在工作过程中可以保持十分稳定的状态,基本不会出现声音模糊和失真的现象,進一步的推动广播电视节目跨入了一个新的纪元。而且据统计,节目播放的情况在数字音频技术的基础上,节目的声音中的杂质得以降到最低水平,而且其音效十分良好,对音轨的改变也十分的明显,其柔和清晰的音质和音色得到了用户的广泛好评。并且其时序性更强,能够起到更强的效果预测机制。广泛的应用于循环神经网络中。运用成熟的深度学习技术,能够极大的提升节目制作的效果以及效率,因为我们需要对其加大关注程度。 3. 音频制作与生产
具有时序性以及语义性的音频信号技术,和传统的视频信号的不同之处在于,计算机不能依据图形算法有效的处理信号。其必须通过音频指标来对信号进行预测。因此广播电视在音频制作领域,对深度学习技术的应用主要体现在以下几个方面:
3.1 语音识别
语音识别领域中很早的就应用了人工智能技术,主要体现在自动阅读和音频识别方面。这一领域的研究是基于英语领域发展而来,实现了汉语语音和文本之间的相互转换。而深度学习模型的引入为其带来更为精准的识别效果和各种方言的识别以及模型合成的等应用,提高了对不同的声调音色以及物理指标的辨别能力。
3.2 说话人识别与合成
深度学习依然是目前需要重点研究的领域之一。因为其有着广泛的使用场景。能够通过计算机建模来对音频信号中的不同声源进行区别。而此类声源往往都是众多声源混合一起的。深度学习技术能够针对性的对其进行分析和提取,并且还可以自动识别特定人的语音和特定背景的语音。这无疑会极大地提高电视音频的制作效果。
3.3 语义识别
音频识别中语音识别是其中最具有挑战性的一种研究,因为其在音频制作中具有最高的使用价值。语义识别完全不同于语音识别,这是高级动物才具有的智能活动,以为需要复杂的大脑功能作为支持。语义识别不但需要准确的学习模型来识别语音的内容以及来源,还需要起具有一定的语义理解以及上下文联想和想象推理的能力。以为音频信号并不是图像信号,没有办法利用图像来预测人的心理活动和面部表情。可是音频信号所能传递的语音却是十分丰富的。利用音调和节奏的变化,人的大脑能够判断出人的情绪好坏。而通过大量的实践研究表明,依托于深度学习模型,尤其是具有时间处理能力的网络结构模型,比如多层次的递归算法和语义识别可以逐渐合成并实现一些特殊的语义。
4. 视频制作与生产
同音频信号处理技术相比,深度学习技术有着更为成熟的体系,因此在广播电视节目的制作中得到了广泛的使用。因为视频的合成识别主要依赖于计算机的图形学和图像理论。并且这一理论在国内外已经取得了不错的成绩,同时也具有这相当大的商业价值。不论是自媒体或者短视频,甚至传统的广播节目以及安全监控,加入深度学习技术都会极大的提高制作效率。在当前融媒体的大环境下,把人工智能融入进产品设计中,能够极大提高产品质量。我们主要介绍几种学习技术所应用的层面:
4.1 场景和字符识别
广播电视节目的核心业务就是场景以及字符的识别工作,这一工作往往耗费记着和编辑很大的时间。而依托于成熟的深度学习技术完全可以让其实现自动化处理制品制作的过程,对视频中的重要人物和图片进行自动化的分割处理。并且还能够捕捉到周围的环境以及特殊的镜头,这样就会极大的提高节目制作的效率。降低制作的成本,让记者可以将工作重点专心的放在创作方面。
4.2 字幕识别与处理
字幕识别一直以来都是电视剧节目制作过程中的一个十分棘手的问题。由于受到技术条件的限制,大部分的电视素材通常都会叠大量的字幕以及图片,而这对处理工具的要求就更加的严格。不仅增加了视频处理的复杂工作,还会极大的降低视频处理的质量。而利用深度学习技术就能够自动的提取和删除视频中的垃圾字幕,极大的还原图片,增强视频的效果。其对节目制作过程中的历史资源抢救具有极大的商业价值。
结论:综上所述,深度学习技术可以高效的服务于电视音频节目制作的各个领域,并且具有极高的商业价值。广播电视行业需要继续攻克各种艰难险阻迎难而上,充分的利用人工智能技术来提高节目质量,积极面对未来发展所遇到的机遇和挑战。
参考文献:
[1]冯景锋,刘骏,曹志,等.基于智慧广电战略的广播电视技术体系构想[J].广播与电视技术,2018,(5):41-45.
[2]戴礼荣,张仕良,黄智颖.基于深度学习的语音识别技术现状与展望[J].数据采集与处理,2019,32(2):221-231.
[3]李泽华.深度神经网络模型在智慧广电应用中的设计与验证[J].广播电视信息,2020,(4):12-15.
[4]甘育.試论人工智能在下一代广播电视网中的应用[J].中国有线电视,2019,(8):819-821.
[5]焦庆华.视音频AI技术在广电内容管理中的应用探索[J].有线电视技术,2019,(07):41-45.
【关键词】深度学习技术;广电;音视频;节目制作;应用
中图分类号:TN94 文献标识码:A DOI:10.12246/j.issn.1673-0348.2021.10..015
1. 深度学习
在深度学习技术出现之前,人们普遍使用传统的机器学习算法,比如决策树和支持向量机等等。此类底层的学习方法只是把输入的数据替换掉一两个连续的表示空间,基本都是应用基本的变换,虽然这些技术在当前有着十分成熟和完整的理论基础,但是在处理复杂问题上却有着明显的不足之处。所以,我们务必要用尽全力把初始化的数据应用更为合适的方法进行处理,同时也要设置好数据的表示层,而这就叫做特征工程。目前大量的实践结果表明,手动设置的特征工程往往不能在一个较为复杂的环境下得到良好的体现。而在深度学习中这一环节却完全是通过自动化实现的,并不需要人为的手动设置,是一个简单的学习模型。
深度学习中的深字,即指的是神经网络中的层数深,而关于深度学习的变革主要在于模型能够在相同的时间中一起学习所有的表示层,并不是通过连续依次的学习。而共同特征的学习其优势之处在于只要模型内的某个特征改变之后,其所有依赖于此特征的单元都能够自动的调整适应,无须人为的操作设置。全部都通过单一的反馈信号来进行监督,模型之中任务地方的变化都是为了实现最终的服务目标。此类方式比无休止的叠加浅层模型具有更加强大的功能。因为其能够通过把复杂抽象的标识拆分为多个中层空间的学习来表示,而每个空间也只是上一个空间的简单转换,简单来讲就是每一层的变化都需要考虑上下两层的变化,从而也就使得深度学习的展现能力比传统的浅层学习更为的强大。
2. 关键技术
2.1 模拟人的思维
人工智能技术之所以迅速发展主要是因为其通过计算机的高速计算以及海量存储的优势来模拟人的思考和工作的方式,用于逐步的替代容易出错和重复性较高的工作。自从英国著名的科学家图形提出图灵实验来,很多国家都在致力于实现智能化计算机的道路上的呕心沥血。伴随着计算机算法的逐渐优化以及硬件性能的不断提高,在很多领域比如图形学,视觉学,语音处理以及自动翻译等都广泛的应用了人工智能技术。
人工智能技术体系中最为核心的技术还是深度学习技术。在最近的五年中,得到了显著的提升。而传统的人工智能技术则主要是依靠着数学的推理和逻辑证明等方法来完成对公式的推理和理论证明。可是,关于怎样模拟人类大脑活动这一方式,一直以来都未能达到一个比较理想的模拟状态。而从仿生学的角度来看,很多的生物学家试着将大脑中的数以亿计的相互连接的神经单和同样具有输入输出的通道并且还能够处理信号的计算机模块进行计较。从而提出了人工神经网络的模型,从而给现在的人工智能发展奠定了良好的基础理论。因此其从本质来说,深度学习也就是在神经网络模型的基础上增加了神经节点,从而深化了网络层次,使其不断地变形和优化,最终演变成为了一个可以自动权重求解的工程模型。而且深度学习的模型中,有着至少三层的神经结构,而这三种神经结构分别对应着输入层,隐藏层以及输出层。而每个神经结果中又包含着数以百计的神经单位。每个神经单位中又包含着三个部分,分别为连着前一层的入口,与下一层链接的出口,以及中间部分的计算函数。其中计算函数主要的作用是对输出的阈值进行一个判断。而根据大量的科学实践理论得出,非线性原函数又是性能和计算能力最好的。
2.2 深度学习的三步
深度学习我们可以科学的将其分为三个过程,也就是练习,验证与测试。首先我们要根据这三个过程分为三个没有互相交集的集合。而人工智能中的特征工程就是会对这些样本数据进行预处理降维和去噪。把复杂和冗余的数据将其从高维空间转换为低维空间,逐渐提升系统对其的辨识度,降低互相之间的关联性,从而减少下一步训练模型的难度。而在数据进行训练的过程中,此模型首选会依据样本数据的各个维度进行随机的权重分配初始化工作,并且在多次的迭代工作中依据其判断结果对权重大小进行相应的修正。而这方面的优化算法多种多样,不过大致可以分为两类,一种是单向的,完全根据模型的预测性能来定义权重的大小。此算法的优点是应用起来较为简单,能够适用于大多数的线性分类问题,缺点是训练时间较长,无法实现全局收敛。而另一种算法则是经过优化的反向传播算法。此模型能够在每次迭代后依据实际效果对其模型权重进行调整并及时的反馈给中心控制台,经过不断的调优实现全局的优化。而其缺点也是训练时间较长,模型相对庞大,并且需要更大的资源以及计算能力支持。
2.3 在音频信号中的处理
数字音频技术就是对音频信号进行加工处理,将其转换为0和1组合而成的编码,这样的数据格式首选在工作过程中可以保持十分稳定的状态,基本不会出现声音模糊和失真的现象,進一步的推动广播电视节目跨入了一个新的纪元。而且据统计,节目播放的情况在数字音频技术的基础上,节目的声音中的杂质得以降到最低水平,而且其音效十分良好,对音轨的改变也十分的明显,其柔和清晰的音质和音色得到了用户的广泛好评。并且其时序性更强,能够起到更强的效果预测机制。广泛的应用于循环神经网络中。运用成熟的深度学习技术,能够极大的提升节目制作的效果以及效率,因为我们需要对其加大关注程度。 3. 音频制作与生产
具有时序性以及语义性的音频信号技术,和传统的视频信号的不同之处在于,计算机不能依据图形算法有效的处理信号。其必须通过音频指标来对信号进行预测。因此广播电视在音频制作领域,对深度学习技术的应用主要体现在以下几个方面:
3.1 语音识别
语音识别领域中很早的就应用了人工智能技术,主要体现在自动阅读和音频识别方面。这一领域的研究是基于英语领域发展而来,实现了汉语语音和文本之间的相互转换。而深度学习模型的引入为其带来更为精准的识别效果和各种方言的识别以及模型合成的等应用,提高了对不同的声调音色以及物理指标的辨别能力。
3.2 说话人识别与合成
深度学习依然是目前需要重点研究的领域之一。因为其有着广泛的使用场景。能够通过计算机建模来对音频信号中的不同声源进行区别。而此类声源往往都是众多声源混合一起的。深度学习技术能够针对性的对其进行分析和提取,并且还可以自动识别特定人的语音和特定背景的语音。这无疑会极大地提高电视音频的制作效果。
3.3 语义识别
音频识别中语音识别是其中最具有挑战性的一种研究,因为其在音频制作中具有最高的使用价值。语义识别完全不同于语音识别,这是高级动物才具有的智能活动,以为需要复杂的大脑功能作为支持。语义识别不但需要准确的学习模型来识别语音的内容以及来源,还需要起具有一定的语义理解以及上下文联想和想象推理的能力。以为音频信号并不是图像信号,没有办法利用图像来预测人的心理活动和面部表情。可是音频信号所能传递的语音却是十分丰富的。利用音调和节奏的变化,人的大脑能够判断出人的情绪好坏。而通过大量的实践研究表明,依托于深度学习模型,尤其是具有时间处理能力的网络结构模型,比如多层次的递归算法和语义识别可以逐渐合成并实现一些特殊的语义。
4. 视频制作与生产
同音频信号处理技术相比,深度学习技术有着更为成熟的体系,因此在广播电视节目的制作中得到了广泛的使用。因为视频的合成识别主要依赖于计算机的图形学和图像理论。并且这一理论在国内外已经取得了不错的成绩,同时也具有这相当大的商业价值。不论是自媒体或者短视频,甚至传统的广播节目以及安全监控,加入深度学习技术都会极大的提高制作效率。在当前融媒体的大环境下,把人工智能融入进产品设计中,能够极大提高产品质量。我们主要介绍几种学习技术所应用的层面:
4.1 场景和字符识别
广播电视节目的核心业务就是场景以及字符的识别工作,这一工作往往耗费记着和编辑很大的时间。而依托于成熟的深度学习技术完全可以让其实现自动化处理制品制作的过程,对视频中的重要人物和图片进行自动化的分割处理。并且还能够捕捉到周围的环境以及特殊的镜头,这样就会极大的提高节目制作的效率。降低制作的成本,让记者可以将工作重点专心的放在创作方面。
4.2 字幕识别与处理
字幕识别一直以来都是电视剧节目制作过程中的一个十分棘手的问题。由于受到技术条件的限制,大部分的电视素材通常都会叠大量的字幕以及图片,而这对处理工具的要求就更加的严格。不仅增加了视频处理的复杂工作,还会极大的降低视频处理的质量。而利用深度学习技术就能够自动的提取和删除视频中的垃圾字幕,极大的还原图片,增强视频的效果。其对节目制作过程中的历史资源抢救具有极大的商业价值。
结论:综上所述,深度学习技术可以高效的服务于电视音频节目制作的各个领域,并且具有极高的商业价值。广播电视行业需要继续攻克各种艰难险阻迎难而上,充分的利用人工智能技术来提高节目质量,积极面对未来发展所遇到的机遇和挑战。
参考文献:
[1]冯景锋,刘骏,曹志,等.基于智慧广电战略的广播电视技术体系构想[J].广播与电视技术,2018,(5):41-45.
[2]戴礼荣,张仕良,黄智颖.基于深度学习的语音识别技术现状与展望[J].数据采集与处理,2019,32(2):221-231.
[3]李泽华.深度神经网络模型在智慧广电应用中的设计与验证[J].广播电视信息,2020,(4):12-15.
[4]甘育.試论人工智能在下一代广播电视网中的应用[J].中国有线电视,2019,(8):819-821.
[5]焦庆华.视音频AI技术在广电内容管理中的应用探索[J].有线电视技术,2019,(07):41-45.