论文部分内容阅读
关键编码特征比较
H.265所面临的挑战
与之前从H.261到H.264的其他标准相比,H.265的显著改善不仅表现在帧间压缩领域,还表现在帧内压缩方面。由于可变量的尺寸转换,H.265在块压缩方面有很大的改善,但是增加压缩效率的同时也带来了一些新挑战。
困难的场景
视频编码是一个复杂的问题,对于内容的依赖性很高。众所周知,有静态背景和高亮的低动态场景可以比高动态、黑场的图片进行更多的压缩。所以对于像H.264这样的现代化编解码器来说首要解决的是最困难的场景/情境。包括:
有细节的关键帧:无论怎么计算,压缩关键帧都是非常困难的,特别是当图像特征丰富的时候(如一片森林)。如果关键帧从一个安静场景开始,低动态上的高效动态预测和补偿可以实现整体的有效压缩,但是如果图像组之间突然增加了复杂性,编码器很容易就会遭遇危机。
高动态的“勾边(crisp)”图像:预测高度复杂的动态是相当困难的。当它与高空间复杂性混在一起,将会出现持续的比特率飙升和/或越来越多的伪影。
黑暗区域的慢动态:对黑暗区域编码是一个很大的挑战,因为眼睛在明亮环境要比黑暗环境更敏感。此外,如果你增加了带有纹理物体或烟雾或颜色、阴影细微改变的慢动作场景,那么即使使用了自适应量化或类似的优化,也非常容易看到讨厌的伪影。
噪声/纹理:噪声几乎是不能被明显压缩的。幸运的是眼睛对于平坦区域和黑暗区域等图像特定区域的纹理和噪音更加敏感,而对于明亮和细节区域的敏感度更低,所以智能的编解码器可以给这些更有需要的区域多留些预算。尽管如此,去压缩噪声内容非常困难,特别是快速移动场景中的噪声。被压缩的噪声很容易被发现,因为在低频创建了一个丑陋的模型,并干扰了运动估计/补偿。降噪并不总是适合或者紧迫的,而且不幸的是,在HEVC规范中,重放期间的噪声建模和重建继续成为一个“选项”。
如上所述,H.265在帧内编码方面效率更高,所以细节区域可以被编码得更好,在平滑区域和渐变区域也是如此。与H.264相比,H.265的运动估计和压缩更有效,而且在伪影出现前可以在更低的比特率上操作。好消息是,H.265产生的伪影更加“平滑”,质量的降低也非常协调,即便对非常激进的分辨率/比特率编码时,也观感良好。
然而,正如硬币的两面,当处理最后两种问题时,H.265的优势也会变成弱势。黑暗区域和噪声/纹理要求更精确的高频保留和更小的色阶变化。这通常被称之为编码的心理优化。
由于H.264使用小的转换,可以轻松将量化误差变成特征/细节,虽然与原始内容不同,但是感觉上“近似”。接近原生频率范围的误差生成可以通过小的边界转换来阻止,因此也更加可控。而更大转换的H.265要使用这种方式则会更加复杂。
H.265编码视频的存储依然是个问题,即使蓝光光盘协会正在寻求一个能够在蓝光光盘上存储4K视频的解决方案。只有至少达到100GB容量的光碟才能存储H.264编码的蓝光4K电影。而另一方面,即使H.265编码和芯片部件已经准备就绪,但是仍然缺少支持4K内容的存储和重放解决方案,并且要能够兼容现有的蓝光标准。这也是H.265发展中的一个主要挑战。
那么问题又来了,今天,我们应该如何对待H.264和H.265呢?
基于上述原因,在需要编码特征丰富的关键帧和高动态提供低码率上更平滑质量退化的情况下,好的H.265编码器要优于好的H.264编码器。
与此同时,在黑暗区域和有噪声和纹理的画面中,一个好的H.264编码器仍然能够提供同样的质量甚至更好的质量。
这并不是说H.264比H.265更好,但是可以看到的是今日的编码器发展水平还不够成熟。对于4K来说也是这样。即使在复杂情况下也要提供高质量的必要性迫使内容提供商愿意在4K媒体流中使用更高的比特率。
一般而言,今天我们用H.264在1080p@3-4Mbit/s上实现的质量可以匹敌H.265在2-2.5Mbit/s上所能实现的。但是困难之处在于需要在压缩过程中投入更多注意力。例如,很多客户不能接受某些画面瑕疵,特别是在大尺寸4K显示器上进行全屏重放时。
除了质量评估外,H.265的主要问题还在于今日解码器的一般性能。由于H.265是更强的处理器,所以别指望简单的固件升级就能够让你的设备解码它。有时候还需要硬件解码器。未来,市场很多系统芯片都将可以解码H.265,我们可以看到H.265会出现在iOS和安卓平台上,但是对于浏览器来说还是个问题。
H.265 PK VP9
在H.265大步向前的同时,谷歌VP8的继任者VP9也已推出,同样在VP8的基础上号称编码效率提高50%,支持8K内容。VP9是一个开源和免费的规格,是WebM架构的一部分。谷歌已经在Chrome浏览器和YouTube中整合支持VP9。
H.265可以抓取16×16个像素“宏块”,可实现35个帧间预测方向来重建它们。VP9在表面上类似,它同样可以抓取64×64个超级块,但是与H.265不同的是,它不一定是平方形式的,所以它可以以64×32或4×8的块来采样,实现更大的效益。但另一方面,它只有10个预测模式来重建它们。
两者都很大程度上简化了现有这些格式,尽管实现了相近的文件尺寸,有初步的报告认为,H.265有更高的图像质量,而VP9对于流媒体来说更加可靠。H.265更大的预测模型实现了边缘可视化,而VP9实施更严格的编码规则,似乎可以让流媒体更加连贯和可靠。
H.265与VP9的比较有一点类似于HDMI与DisplayPort的比较。后者以版权免费的方式去争取一席空间,但是前者的无处不在的应用意味着它会有更广泛的行业支持。这也是之前H.264轻松打败VP8的原因。 VP9版权免费是一个优势,但是谷歌最终还是要推动大家来使用它。这是他们面对的一大问题。其最大的成本在于终端用户观看视频方面,但是用户本身是不需要版权费的,而用于播放视频的硬件和软件最直接的定义了它们的视频格式。几乎没有用户会去选择重放视频的格式。谷歌需要让浏览器和重放软件支持VP9。现在Chrome和Firefox都支持WebM,但是Safari和Internet还没有支持。谷歌VP9的主要目标或许在硬件方面多于在软件方面,现在已经得到多个硬件供应商支持,包括:LG、松下、索尼、三星、东芝、飞利浦、夏普、ARM、英特尔、Nvidia、Qualcomm、MozilIa等行业领袖。但另一方面,所有这些公司都支持H.265,即便是谷歌也会在Chorme上支持H.265,而且YouTube也不排除会支持它。可以说,很多公司以及大部分设备都会同时支持两种格式。这对于大家是个好消息。
有趣的是,第三个压缩格式也在规划之中,Xjph.Org基金会开发了“DaaIa”,虽然它还比较遥远,但是Xiph称其将是性能超越H.265和VP9的新一代规格。
H.205的未来
高像素数量导致需要更复杂的编解码器来最小化带宽需求。持续连接PC或TV,平滑处理4K信号的最小码流是20Mbit/s,例如Netflix要求用户的互联网连接至少提供持续的25Mbit/s带宽量。20到25Mbit/s代表带宽的巨大改善,原生的、非压缩的4K视频需要在60Mbit/s的带宽上才会有好的表现。
对于大多数的行业应用来说,H.265就是解决这一问题的答案之一,但是也要付出一定代价:显著增加的算法复杂性据说需要10倍目前2K部署所用H.264编解码器的计算能力来支撑,而提供这种能力所需的硅也远非一个简单的商品条目。
很多制造商希望在上游芯片和IC技术供应商的努力之下,解决成本和功能不平衡的问题,让H.265快速取代H.264。就目前来看,H.265在广电领域已经有比较好的发展。尽管大多数有线和数字电视广播公司仍然使用MPEG-2标准,但好消息是,一些电视广播公司在HDTV应用中,已经用H.265代替MPEG-2标准,因为H.265降低了70-80%的带宽消耗,可以在现有带宽条件下支持全高清的1080p广播。与有线电视相比,卫星电视提供商采用H.265更早。H.265可能将成为4K和8K的最终解决方案选择。在今年的NAB上,NeuLion公司已与LG电子续签协议,让LG在其超高清电视机产品系列中集成DivX HEVC解决方案,实现4K视频流媒体播放。
H.265已经是电视和视频发展的未来,但是否也会成为专业应用领域的主流规范还存有疑问。因为安防监控领域等专业领域不仅受制于上述挑战,而且还要看终端用户脸色。对于项目化的专业用户和需要监控的一般消费者而言,平安城市、交通监测和银行监控这类专业用户需要更加稳定和可靠的系统。他们中大多数已经在使用现有的技术,对于是否采用H.265还心存犹豫,这就需要更长的验证周期。
另一方面,中小企业和家庭、零售用户等消费者需要低安装成本,因此更加倾向于采用新技术。基于这个原因,H.265可能首先在中小企业应用中获得成功,并在消费者市场获得认可。如果H.265标准快速成熟,其压缩效率比H.264提升50%,它就能够节省20%的投资,保证更高的性能和更替的网络及稳定的系统建设成本。
H.265所面临的挑战
与之前从H.261到H.264的其他标准相比,H.265的显著改善不仅表现在帧间压缩领域,还表现在帧内压缩方面。由于可变量的尺寸转换,H.265在块压缩方面有很大的改善,但是增加压缩效率的同时也带来了一些新挑战。
困难的场景
视频编码是一个复杂的问题,对于内容的依赖性很高。众所周知,有静态背景和高亮的低动态场景可以比高动态、黑场的图片进行更多的压缩。所以对于像H.264这样的现代化编解码器来说首要解决的是最困难的场景/情境。包括:
有细节的关键帧:无论怎么计算,压缩关键帧都是非常困难的,特别是当图像特征丰富的时候(如一片森林)。如果关键帧从一个安静场景开始,低动态上的高效动态预测和补偿可以实现整体的有效压缩,但是如果图像组之间突然增加了复杂性,编码器很容易就会遭遇危机。
高动态的“勾边(crisp)”图像:预测高度复杂的动态是相当困难的。当它与高空间复杂性混在一起,将会出现持续的比特率飙升和/或越来越多的伪影。
黑暗区域的慢动态:对黑暗区域编码是一个很大的挑战,因为眼睛在明亮环境要比黑暗环境更敏感。此外,如果你增加了带有纹理物体或烟雾或颜色、阴影细微改变的慢动作场景,那么即使使用了自适应量化或类似的优化,也非常容易看到讨厌的伪影。
噪声/纹理:噪声几乎是不能被明显压缩的。幸运的是眼睛对于平坦区域和黑暗区域等图像特定区域的纹理和噪音更加敏感,而对于明亮和细节区域的敏感度更低,所以智能的编解码器可以给这些更有需要的区域多留些预算。尽管如此,去压缩噪声内容非常困难,特别是快速移动场景中的噪声。被压缩的噪声很容易被发现,因为在低频创建了一个丑陋的模型,并干扰了运动估计/补偿。降噪并不总是适合或者紧迫的,而且不幸的是,在HEVC规范中,重放期间的噪声建模和重建继续成为一个“选项”。
如上所述,H.265在帧内编码方面效率更高,所以细节区域可以被编码得更好,在平滑区域和渐变区域也是如此。与H.264相比,H.265的运动估计和压缩更有效,而且在伪影出现前可以在更低的比特率上操作。好消息是,H.265产生的伪影更加“平滑”,质量的降低也非常协调,即便对非常激进的分辨率/比特率编码时,也观感良好。
然而,正如硬币的两面,当处理最后两种问题时,H.265的优势也会变成弱势。黑暗区域和噪声/纹理要求更精确的高频保留和更小的色阶变化。这通常被称之为编码的心理优化。
由于H.264使用小的转换,可以轻松将量化误差变成特征/细节,虽然与原始内容不同,但是感觉上“近似”。接近原生频率范围的误差生成可以通过小的边界转换来阻止,因此也更加可控。而更大转换的H.265要使用这种方式则会更加复杂。
H.265编码视频的存储依然是个问题,即使蓝光光盘协会正在寻求一个能够在蓝光光盘上存储4K视频的解决方案。只有至少达到100GB容量的光碟才能存储H.264编码的蓝光4K电影。而另一方面,即使H.265编码和芯片部件已经准备就绪,但是仍然缺少支持4K内容的存储和重放解决方案,并且要能够兼容现有的蓝光标准。这也是H.265发展中的一个主要挑战。
那么问题又来了,今天,我们应该如何对待H.264和H.265呢?
基于上述原因,在需要编码特征丰富的关键帧和高动态提供低码率上更平滑质量退化的情况下,好的H.265编码器要优于好的H.264编码器。
与此同时,在黑暗区域和有噪声和纹理的画面中,一个好的H.264编码器仍然能够提供同样的质量甚至更好的质量。
这并不是说H.264比H.265更好,但是可以看到的是今日的编码器发展水平还不够成熟。对于4K来说也是这样。即使在复杂情况下也要提供高质量的必要性迫使内容提供商愿意在4K媒体流中使用更高的比特率。
一般而言,今天我们用H.264在1080p@3-4Mbit/s上实现的质量可以匹敌H.265在2-2.5Mbit/s上所能实现的。但是困难之处在于需要在压缩过程中投入更多注意力。例如,很多客户不能接受某些画面瑕疵,特别是在大尺寸4K显示器上进行全屏重放时。
除了质量评估外,H.265的主要问题还在于今日解码器的一般性能。由于H.265是更强的处理器,所以别指望简单的固件升级就能够让你的设备解码它。有时候还需要硬件解码器。未来,市场很多系统芯片都将可以解码H.265,我们可以看到H.265会出现在iOS和安卓平台上,但是对于浏览器来说还是个问题。
H.265 PK VP9
在H.265大步向前的同时,谷歌VP8的继任者VP9也已推出,同样在VP8的基础上号称编码效率提高50%,支持8K内容。VP9是一个开源和免费的规格,是WebM架构的一部分。谷歌已经在Chrome浏览器和YouTube中整合支持VP9。
H.265可以抓取16×16个像素“宏块”,可实现35个帧间预测方向来重建它们。VP9在表面上类似,它同样可以抓取64×64个超级块,但是与H.265不同的是,它不一定是平方形式的,所以它可以以64×32或4×8的块来采样,实现更大的效益。但另一方面,它只有10个预测模式来重建它们。
两者都很大程度上简化了现有这些格式,尽管实现了相近的文件尺寸,有初步的报告认为,H.265有更高的图像质量,而VP9对于流媒体来说更加可靠。H.265更大的预测模型实现了边缘可视化,而VP9实施更严格的编码规则,似乎可以让流媒体更加连贯和可靠。
H.265与VP9的比较有一点类似于HDMI与DisplayPort的比较。后者以版权免费的方式去争取一席空间,但是前者的无处不在的应用意味着它会有更广泛的行业支持。这也是之前H.264轻松打败VP8的原因。 VP9版权免费是一个优势,但是谷歌最终还是要推动大家来使用它。这是他们面对的一大问题。其最大的成本在于终端用户观看视频方面,但是用户本身是不需要版权费的,而用于播放视频的硬件和软件最直接的定义了它们的视频格式。几乎没有用户会去选择重放视频的格式。谷歌需要让浏览器和重放软件支持VP9。现在Chrome和Firefox都支持WebM,但是Safari和Internet还没有支持。谷歌VP9的主要目标或许在硬件方面多于在软件方面,现在已经得到多个硬件供应商支持,包括:LG、松下、索尼、三星、东芝、飞利浦、夏普、ARM、英特尔、Nvidia、Qualcomm、MozilIa等行业领袖。但另一方面,所有这些公司都支持H.265,即便是谷歌也会在Chorme上支持H.265,而且YouTube也不排除会支持它。可以说,很多公司以及大部分设备都会同时支持两种格式。这对于大家是个好消息。
有趣的是,第三个压缩格式也在规划之中,Xjph.Org基金会开发了“DaaIa”,虽然它还比较遥远,但是Xiph称其将是性能超越H.265和VP9的新一代规格。
H.205的未来
高像素数量导致需要更复杂的编解码器来最小化带宽需求。持续连接PC或TV,平滑处理4K信号的最小码流是20Mbit/s,例如Netflix要求用户的互联网连接至少提供持续的25Mbit/s带宽量。20到25Mbit/s代表带宽的巨大改善,原生的、非压缩的4K视频需要在60Mbit/s的带宽上才会有好的表现。
对于大多数的行业应用来说,H.265就是解决这一问题的答案之一,但是也要付出一定代价:显著增加的算法复杂性据说需要10倍目前2K部署所用H.264编解码器的计算能力来支撑,而提供这种能力所需的硅也远非一个简单的商品条目。
很多制造商希望在上游芯片和IC技术供应商的努力之下,解决成本和功能不平衡的问题,让H.265快速取代H.264。就目前来看,H.265在广电领域已经有比较好的发展。尽管大多数有线和数字电视广播公司仍然使用MPEG-2标准,但好消息是,一些电视广播公司在HDTV应用中,已经用H.265代替MPEG-2标准,因为H.265降低了70-80%的带宽消耗,可以在现有带宽条件下支持全高清的1080p广播。与有线电视相比,卫星电视提供商采用H.265更早。H.265可能将成为4K和8K的最终解决方案选择。在今年的NAB上,NeuLion公司已与LG电子续签协议,让LG在其超高清电视机产品系列中集成DivX HEVC解决方案,实现4K视频流媒体播放。
H.265已经是电视和视频发展的未来,但是否也会成为专业应用领域的主流规范还存有疑问。因为安防监控领域等专业领域不仅受制于上述挑战,而且还要看终端用户脸色。对于项目化的专业用户和需要监控的一般消费者而言,平安城市、交通监测和银行监控这类专业用户需要更加稳定和可靠的系统。他们中大多数已经在使用现有的技术,对于是否采用H.265还心存犹豫,这就需要更长的验证周期。
另一方面,中小企业和家庭、零售用户等消费者需要低安装成本,因此更加倾向于采用新技术。基于这个原因,H.265可能首先在中小企业应用中获得成功,并在消费者市场获得认可。如果H.265标准快速成熟,其压缩效率比H.264提升50%,它就能够节省20%的投资,保证更高的性能和更替的网络及稳定的系统建设成本。