论文部分内容阅读
随着医疗技术的快速发展,人们对手术的需求也越来越大;手术种类与形式也越来越多、过程越来越复杂、手术的进行越来越依赖于计算机技术的辅助,手术的教育和培训也变得极具挑战性;手术过程本身亦需要证明其合理性。以上列举的事实都需要我们对手术流程有更加全面的理解与认识,为此研究人员提出了手术流程建模[2]。手术流程建模要求计算机根据人类的思维和感知来分析手术视频,其中如何跨越低级像素特征和高级语义特征之间的鸿沟是手术流程建模中最重要的一步,也是视频分析领域颇具挑战的一个研究课题。与传统的目标识别和视频分析不一样的是,手术视频有其独特的特点:手术视频是一场手术的完美再现,在手术过程中可能出现任何意外情况。而且,不同的手术需要用到不同类型的手术室和医疗器械,所以在手术视频中背景并不固定,手术器械和医护人员经常交叉在一起,对其自动化分析带来了极大的挑战性。目前的手术流程建模方法多是基于计算机视觉领域内已有的视频分析方法对视频进行整体分析,直接提取光流等适用于视频的特征,忽略了每一帧的底层特征与视频高级语义之间的鸿沟。为了解决这一问题,本文提出将卷积神经网络(CNN)应用于这一领域,分析手术视频中每一帧所包含的内容及其大致位置,桥接低级语义与高级语义之间的鸿沟。卷积神经网络是目前比较流行的图像分类算法之一,它通过有监督的方式学习图像的层次化特征表达方式。卷积神经网络训练的主要困难在于它需要大量的带标签的训练样本,现在虽然已经公开了许多优秀的手术视频,但是这些数据都没有被标注,无法用来训练卷积神经网络模型。而且由于专业知识的限制,一些手术视频和医疗数据只有专业的医护人员才有能力标注,所以在短时间内也无法收集一个大规模的数据集。我们收集了小规模的医疗设备数据集,其中主要是常出现于手术视频中医疗设备及医护人员的图像,并进行了标注,希望能对这一领域做出一些贡献。另外本文提出将机器学习中的迁移学习技术引入这一领域来解决缺乏带标签的训练样本的问题。实验结果表明,尽管面临手术图像带标签数据少、背景复杂、目标遮挡严重等挑战,利用卷积神经网络和迁移学习技术在手术视频内容识别上依然可以取得优异的结果。另外实验结果还表明了这种方法在目标定位以及活动识别任务上的巨大潜力,可以为手术流程建模的后续工作打下坚实的基础。