内窥镜手术视频的智能化剪辑方法研究

来源 :西安邮电大学 | 被引量 : 0次 | 上传用户:xb_wonder
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着内窥镜技术的迅速发展,更多的外科手术选择以内窥镜方式来完成,在手术进行的同时,对手术视频的录制也会非常便利。未经修剪的内窥镜手术视频存在着大量的模糊、抖动、血迹斑斑或者是清洗镜头等与手术操作无关的视频片段。在术后,当医生需要用手术视频进行病历记录、术前宣传、辅助医学教育、学术交流时,这些与手术操作无关的视频内容会使得应用过程非常繁琐,容易造成医生获取手术信息不连贯,同时也会影响医生查找关键手术步骤时的效率。此外,将手术视频以手术的不同阶段进行标注、剪辑,对于监控手术过程、细分手术流程、培养低年资医生也有着非常重要的意义。在术后,让医生本人对手术视频进行人工剪辑无疑是比较困难的。因此,对内窥镜手术视频进行智能化剪辑的需求变得非常迫切。内窥镜手术视频中,连续性与间断性并存、类内差异大且类间差异小等特点,将使得对手术视频智能化剪辑的研究面临着很多挑战。针对以上存在的问题,本文主要研究工作如下:(1)针对内窥镜手术视频中的无效手术视频片段,提出一种多粒度层次化语义分析网络MHN(Multi-granular Hierarchical Network)。在粗粒度模块中,以Res Net-50为基准网络,加入注意力机制使得网络可以自动化地选择内窥镜视频的空间信息特征,再通过LSTM网络提取出视频的时间流特征,完成对手术视频时空特征的联合建模。在细粒度模块中,提出一种自修复模块,在粗粒度结果的基础上,迭代地校正有效手术视频的边界,使得剪辑更加精准。最后,实验结果表明,MHN网络在准确率与效率方面都具有良好的表现,在鼻部内窥镜手术视频数据集上,准确率可以达到89%,相比于其他流行网络,提高了8%。(2)针对MHN网络对模糊视频片段分类的准确率相对较低的问题,提出了一种基于困难帧检测的智能化剪辑方法HFD-ConvLSTM(Hard Frame Detection method using Convolutional LSTM network)。核心思想是将一个三分类问题(体外、体内清晰、体内模糊),转化为两阶段的两个二分类问题(体外,体内/体内清晰、体内模糊)。首先,通过粗粒度级的分类器去除体外的手术视频片段。其次,挖掘困难样本,以困难样本为主体重新构建相对平衡的模糊手术视频与清晰手术视频的数据集。困难样本由两种方式构建,一种是粗粒度分类器分类错误的样本,另一种是通过“再模糊理论的无参考图像评估方法(NRIQAVR)”得到的较高模糊分数的模糊帧样本。最后,对重新构建的数据集以时空结合且有注意力机制的ConvLSTM网络进行训练。实验结果表明,模型可以检测到88.3%的模糊类别帧,最终的分类准确率可以达到94.4%,相比于其他流行网络,提高了4%。(3)针对手术阶段识别问题,以腹腔镜手术视频Cholec80数据集为研究基础,以Vision Transformer(Vi T)网络为方法,将单张图像按规则分割裁剪序列化,建立图像内部的时序关系。核心思想是通过堆叠多个相同的多头自注意力模块构建Encoder网络,利用残差结构防止训练退化问题。实验结果表明,对32个测试视频的平均分类准确率可以达到80.6%,标准差为8%,在准确率提高的同时,保证了模型的稳定性。与仅具有CNN结构的网络相比,平均分类准确率提高了4.9%,与CNN和RNN结合的网络对比,平均分类准确率提高了1.6%。
其他文献
随着现代社会信息化与智能化的迅速发展,无人机及其相关技术也得到了更大范围的应用与研究,这也对无人机飞行控制系统的控制精度与安全性能提出了新的挑战。无人机飞行控制系统是一类多传感器控制系统,因此多传感器信息融合方法作为一种处理多源数据的有效手段,已经在无人机高度控制系统中已经得到广泛使用,其中Kalman滤波由于性能稳定以及计算简单是信息融合技术中最常用的方法之一,但传统Kalman滤波由于种种条件
“史诗奇幻”源于人类古老的神话传统,是人们对心中共同的民族神话和民族史诗的一种追寻,不论什么样的新型史诗奇幻小说,都有一个“坚强核心”:就是让其作品架构中在人类古老的神话传统和历史时空之上,以避免作者的“幻想”成为无本之木、无稽之谈,目的就是为了保持史诗奇幻小说的特性。而“史诗奇幻小说”中的“空间”,这个想象的共同体,已经成为承载和维护族群认同、延续文化传统的容器。本文力图阐释出此类小说的文
期刊
数据挖掘泛指与数据库中知识发现相关的一切分析方法和算法过程,旨在从数据集中自动识别和提取出隐藏于其中的关联规则、潜在规律或模式等多种形式的知识,进而引导各类实践活动中的决策、控制和行为.在“数据爆炸,知识贫乏”的大数据时代,如何从海量数据中提取出有价值的知识受到了前所未有的关注,数据挖掘这一研究领域蓬勃兴起,推动了数学、计算机科学和人工智能等学科的交叉渗透.关联规则挖掘是数据挖掘中最关键的技术之一
学位
热敏电阻是一类电阻率随温度上升而呈指数性下降的材料,因其具有这种特殊的电学性能使得该材料可以应用到各种温度测控领域。此外,其还有红外吸收、温度补偿和抑制浪涌电流等功能。本论文采用电子束蒸发法制备金属多层膜,通过热退火形成锰基尖晶石结构热敏薄膜材料。探究了薄膜制备过程中的工艺参数及退火温度。然后,研究了镁掺杂对Mn-Zn-Ni-O热敏薄膜的结构、形貌、光学、电学和老化特性方面的影响。本文主要研究内容
目前,各国医疗机构都选择将患者的病历信息生成电子记录进行保存,既有利于对患者数据的统一管理,也方便医生的追踪式治疗。但现有医疗系统都是采用中心化的存储方式,一方面医疗机构之间很难进行共享数据操作,不方便患者在跨区域就诊;另一方面黑客通过技术手段对中心化的管理机构进行攻击,就能轻易窃取数据库数据,无法保证患者病历的隐私性。因此研究如何在保证患者个人隐私不被泄露的情况下,实现电子病历安全高效的存储和共
学位
智能车间信息物理融合系统(Cyber-Physical System,CPS)是智能制造领域的重要载体,是综合了感知、计算、控制于一体的多维复杂生产系统。车间CPS系统通过物理层的感知功能获取车间软、硬件资源的动静态信息,借助工业云平台强大的计算能力,结合相关应用模型对大量工业数据进行计算分析,将分析结果返回车间,通过控制模块发布相应动作指令,实现车间环境监控、产品工艺优化、产品质量检测等方面的自
我国建筑行业发展迅猛,施工工地体量庞大,但工地安全防范及管理措施相对国外信息化程度较低,每年全国因安全行为不合规造成的伤亡不计其数。运用物联网技术、大数据及云计算技术对工地行为进行智能化管控的智慧工地应用是如今建筑行业对施工工地进行管理的发展趋势。但智慧工地管理系统同时接入大量施工工地,每个工地又同时存在多个数据采集设备,若这些海量数据同时发送至云平台,会造成数据高并发现象,给平台带来巨大的负载压
人类通过视觉来感知外部世界,随着科技的发展和社会的进步,机器视觉已经成为当今最为热门的研究方向。而摄像机标定作为机器视觉领域所有技术实施的前提,是必不可少的关键步骤。相机标定的目的就是利用二维图像信息计算得到三维空间信息,其最终的结果是否足够准确对机器视觉的相关领域有很大影响。本文先介绍了摄像机标定的相关理论知识,对标定过程中用到的坐标系及起推导过程进行解释说明,最后补充介绍了几种具有代表性的相机