论文部分内容阅读
随着互联网的快速发展,生物医学文献数量与日俱增,逐渐成为重要的公共生物医学资源,随之产生了海量的数字化医学图像。图像模式是一种十分有用的元数据,不仅能够辅助医学研究人员或教育工作者,更好地理解复杂的生物医学概念,顺利展开医学研究和教学,而且为归档和索引生物医学文献中的图像奠定基础,从而更有效地利用生物医学资源。人工标注图像模式,将耗费巨大的人力物力,自动抽取图像模式类别的应用价值催生了强烈的研究需求。然而,图像模式的多样性、训练样本的不均衡性与稀缺性,给研究工作带来了巨大的挑战。本文将图像处理、自然语言处理、机器学习、深度学习和迁移学习等技术,应用于生物医学文献中的图像和说明文本,探测复合图像后,进行简单图像模式分类和复合图像多标签分类,从而高效、准确地识别出图像的模式类别。本文针对复合图像探测、简单图像模式分类和复合图像多标签分类展开了研究,具体完成的工作主要包括如下三个方面:针对生物医学文献中的复合图像的探测问题,提出了跨模态复合图像探测模型(Cross-media Compound Figure Detection based on Convolutional Neural Network,CCFD_CNN)。该模型利用卷积神经网络的卷积和池化操作,从图像内容和相应的说明文本中自动学习有效的特征表示,融合两种模态的预测结果进行复合图像探测。与流行的人工拟合特征方法相比,CCFD_CNN几乎不需要特征工程,具有较强的泛化能力。CCFD_CNN模型在生物医学文献复合图像探测任务(ImageCLEF数据集)上具有较好的性能。针对生物医学文献中的简单图像模式分类问题,提出了视觉集成模式分类方法(Visual Ensemble Model for Modality Classification,VEMMC)。该模型集成不同深度的卷积神经网络捕获模式多样性特征,利用局部微调的迁移学习和数据增广,缓解小规模数据训练16层和50层深度网络导致的过拟合问题,集成从头训练的6层深度网络,捕获更多的生物医学领域特征。VEMMC模型在生物医学文献简单图像模式分类任务(ImageCLEF数据集)上具有较好的性能。针对生物医学文献中的复合图像多标签分类的问题,提出了基于混合迁移学习的跨模态多标签分类模型(Cross-media Multi-label Classification based on Hybrid Transfer Learning,Hybrid_TL_CMC)。该模型在图像上搭建深度卷积神经网络抽取模式信息,对自然图像和生物医学简单图像先后进行异质和同质迁移学习,缓解标签样本分布不均衡导致的过拟合占多数类的问题;在预训练词向量上搭建卷积神经网络,利用生物医学简单图像的说明文本进行同质迁移学习,捕获更多生物医学领域特征;通过分段式融合策略,结合两种模态的预测结果,提高复合图像多标签分类性能。Hybrid_TL_CMC模型在生物医学文献复合图像多标签分类任务(ImageCLEF数据集)上具有较好的性能。