虚拟会议室视频场景实时融合与沉浸感增强技术研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:goodywq2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视频会议系统以网络为媒介传输不同位置人或群体的音视频信息,实现不受地域限制的实时交互与沟通,已广泛应用于教育、办公和医疗等领域。传统视频会议系统在屏幕上扁平排列参会者视频画面,缺少沉浸式互动体验。3D视频会议系统中的虚拟会议室场景具有沉浸感,但大多需要借助深度摄像头和头戴式设备,成本较高且长时间使用会引起眩晕等不适。因此,如何在不使用3D眼镜和显示器的条件下,实现用户视频与虚拟会议室场景实时融合并增强用户沉浸感具有重要意义。为支持多人会议应用的需要,设计了一个适配多种终端同时接入的视频会议系统框架,并提出了虚拟会议室的视频场景实时融合方法与沉浸感增强技术。为了实现视频场景实时融合,在客户端本地使用轻量化网络模型对原始视频流进行人像背景分割,通过点对点连接传输无背景的人像视频到其它客户端。其它客户端将视频通过HTML画布转化成视频纹理,然后将视频纹理以3D模型表面贴图形式映射到虚拟会议室场景中。为了增强用户沉浸感,在客户端对无背景的人像视频继续使用网络模型处理,得到脸部、上半身和手部关键点位置。使用脸部标志点计算视角方向并分析音频流声音大小,实现视线跟随移动;根据上半身关键点绑定手臂动作映射到虚拟化身,实现第一人称视角;根据手部关键点检测当前手势动作,实现远程操控,提升参会者的沉浸式交互体验。基于Web浏览器开发网页即时通讯客户端,搭建Node.js信令服务器,实现了同时支持桌面端和移动终端设备的虚拟会议室视频会议系统并进行了初步测试。测试结果表明,参会者能以360度全景视野观看会议场景,4种手势动作的检测准确率均达到90%以上。在有4个参会者同时参加会议的情况下,系统的延时和抖动分别为78ms和26ms,丢包率为0.05%,符合视频会议在延时、抖动和丢包率等方面的参数要求。总之,该系统使得用户具有沉浸式会议体验,对于开发新一代三维视频会议系统具有一定的参考价值。
其他文献
图模式匹配在图挖掘中是一类具有挑战性的问题。首先,模式图中顶点或边的搜索顺序与性能密切相关,不同的搜索顺序可能会导致最后的执行时间相差几个数量级,其次,由于模式图普遍存在对称结构,对称结构在模式匹配的过程中会不可避免地映射到同一组嵌入,从而引发了冗余计算,这还会导致最终匹配结果中存在自同构,最后,在枚举子图的过程中,中间子图规模,计算量呈指数级别增长,系统的内存消耗往往很大。为解决以上问题,单机图
学位
随着监控摄像头的大量铺设和无死角覆盖,每时每刻都可以产生海量的视频监控数据,许多在公共区域发生的异常或危险行为都能够被捕捉并记录。使用人力难以对海量的视频监控数据进行长时间观察,因此研究利用人工智能算法自动对视频监控中的内容进行分析,识别出视频监控中的有效信息,具有重要的理论价值和实际意义。针对监控视频中的异常事件识别问题,提出基于时序上下文增强和多流双头图卷积的异常事件识别模型。该模型包含异常事
学位
乳腺癌是女性发病率最高的癌症,严重危害女性健康。及时诊断能有效地提高乳腺癌治愈率。乳腺X射线摄影是目前筛查乳腺癌最常用的方式。肿块是乳腺癌最常见的病理特征之一,依赖有经验的医生进行识别。研究乳腺肿块自动化分割具有重要的意义。深度学习技术被广泛应用于肿块分割,现有方法存在肿块边缘分割精确度较低,对致密型乳腺适用性受限的问题,围绕以上问题,开展了以下工作。针对医学影像纹理复杂,内部相关性大的特点,提出
学位
指代表达理解是自然语言处理领域最具挑战性任务之一。给定一段指代表达的文本(例如“桌上的苹果”)以及一幅图像,指代表达理解任务旨在理解文本“桌上的苹果”中的指代关系,然后给出图像中所指代的“苹果”的位置。现有的指代表达理解模型文本处理粒度基本都是语句级,这种粗粒度的处理方式会损失语句中的指代关系。同时,现有指代表达理解模型的推理过程缺乏可解释性,阻碍了其推理能力的提升。因此,如何采取更细粒度的方式处
学位
人群计数作为密集人群分析的子任务,在公共安全和城市规划等领域有着重要的应用价值。目前主流的基于密度图回归的人群计数方法能给出较准确的计数结果,但无法提供精确的个体位置信息,限制了其应用范围。基于检测的方法能提供所检出个体的精确位置信息,但由于存在遮挡等问题,导致不可避免地出现漏检现象。因此,如何在保证计数精度的同时,提供精确的个体位置信息仍是亟待解决的重要问题。通过将人群计数视为一类特殊的关键点定
学位
分区图着色问题来源于全光网络中路由与波长分配的实际应用,目的是使用尽可能少的波长完成网络连接的路由分配,从而降低实际网络传输成本。该问题是经典图着色问题的一个变种问题,已被证明是NP完全的。因此,分区图着色问题的有效求解具有重要的理论价值和现实意义。当前分区图着色问题的研究成果较少,传统的单一算法优化性能具有局限性,难以满足工程实践中复杂问题的求解需求。在分析分区图着色问题与最大独立集之间的关系后
学位
当前物联网领域发展火热,各式各样的物联网设备数量多、分布广,传统的线下管理方式无法很好地完成对它们的管理工作,因此一些云管理平台应运而生。随着接入的设备越来越多与应用场景越来越丰富,导致了对于带宽的需求越来越大,对于通信的时延要求也越来越高,而当前与物联网设备间的通信数据都需经过平台进行中继转发,现有的平台可能会面临带宽瓶颈问题。直连通信可以缓解该问题,减轻平台中继转发压力,并降低通信时延,同时也
学位
近年来,随着我国电动自行车产业的迅速发展,充电桩等相关配套基础设施的建设也越来越受到重视。早期传统的充电桩在面对日益增长的充电需求时,常因硬件性能不足、配套软件体验差、管理成本高等问题显得力不从心。所以当前亟需要一种简洁有效的组网技术来加强对充电桩的集中管理与维护,以为用户提供安全、稳定的充电服务。通过对智能充电桩系统的需求分析和整体设计,确定了组网技术由数据通信模块和网络管理模块组成,其中数据通
学位
图像测量技术作为近年来测量领域中比较流行的非接触式测量技术,广泛应用于精密复杂零件的微尺寸测量、几何量的尺寸测量、航空等遥感测量。利用工件影像对实体工件的几何量测量是解决微小复杂工件难测量问题的有效手段,因此立足图像处理与图像识别技术设计并实现面向图像的几何对象检测系统。工业测量软件作为测量仪的上层管理应用,提供完善的功能实现和丰富的可视化操作。几何对象检测系统作为测量软件的子系统实现影像中几何对
学位
本文立足于工业互联网平台多边价值创造视角,从供应链数据质量、数据透明度以及数据驱动协同度三个层面剖析制造企业供应链数字化转型面临的现实问题,并结合平台理论、价值理论、供应链管理理论,提出支撑制造企业供应链数字化转型的三个关键核心能力,即供应链数据处理能力、数据融合能力以及数据治理能力,详细探讨能力内涵与供应链数字化转型的关系。在建构能力结构模型的基础上,围绕工业互联网平台各主体多边价值共创,剖析制
期刊