论文部分内容阅读
随着多媒体和网络传输技术的发展,视频的应用场景也越发丰富,它以其丰富多彩的视觉表达效果成为了互联网通讯中的重要表达形式。与此同时,传统平面的固定视角视频逐渐不能满足人们新的视觉需求。近年来,虚拟现实技术不断发展,它所呈现的交互式虚拟全景视频场景与用户实际行为之间的融合极大的丰富了用户体验。终端显示设备的不断革新,为虚拟现实内容的呈现提供了可能性和创造性。虽然对于全景视频的应用需求日渐提升,但全景视频的处理和呈现服务面临着诸多挑战。首先,8K甚至更高分辨率的全景视频对传输带宽有很高的消耗。例如,分辨率为2K的视频编码码流一般需要4Mbit/s左右的数据量,如果分辨率达到4K,则数据量将增长为20Mbit/s。但同时,人眼视野范围有限,无法一次性观看到全景视频的所有方向上的内容,而只关注视角区域的画面。因此,本文提出一个基于云端的视点自适应视频处理的传输方案,按观看视角所需在空间上合理分配高低码率。该方案能有效降低带宽需求,缓解视频观看中的黑场问题,并且能兼容传统的客户端播放器。在这种方案下,视频画面将在空间上形成多个分块。为了避免在服务端视频内容的切片化,我们在全景文件容器封装成多路视频轨道,提出视点自适应的混合码流提取算法,按照视角位置信息实时抽取高低码率分块重组码流。并将服务端传输系统与客户端头戴式设备相连接形成闭环,实现了视角信息和视频内容的交互。本文具体介绍了这种视点自适应架构的设计细节和优化工作,并通过实验数据对系统的带宽和质量两个维度进行了性能比较。网络传输和系统模块中通常存在延时,服务端根据当前时刻的视角进行混合码率视频的合成传输,由于延时的影响,在终端观看服务端传输的视频时,用户的视角位置很有可能已经产生了变化,无法保证观看位置的视频质量。因此,基于延时带来的位置变化问题,我们在视点自适应传输中利用视角预测技术。在本文中详细研究了线性回归、反向传播神经网络和长短时记忆网络的原理,并在实验中对比了它们的预测准确度性能。在此基础上提出了一种基于时间轨迹分析和显著性视觉检测算法联合预测修正的方法。实验证明,利用时间和空间信息的联合预测修正方法能更为准确的预测未来视角位置,能有效提升终端画面质量。