【摘 要】
:
近年来,以深度卷积神经网络(Deep Convolutional Neural Network,DCNN)为代表的人工智能技术迅速发展,在图像识别等特定领域的性能已经接近甚至超过以人类为代表的灵长类动物。然而,在目标/背景复杂多变、遮挡和干扰等复杂开放场景下,DCNN模型的性能容易急剧下降,而灵长类动物仍能快速、准确、稳定地识别目标,这表明现有的DCNN模型在数据驱动的模式下,还很难像灵长类动物大
论文部分内容阅读
近年来,以深度卷积神经网络(Deep Convolutional Neural Network,DCNN)为代表的人工智能技术迅速发展,在图像识别等特定领域的性能已经接近甚至超过以人类为代表的灵长类动物。然而,在目标/背景复杂多变、遮挡和干扰等复杂开放场景下,DCNN模型的性能容易急剧下降,而灵长类动物仍能快速、准确、稳定地识别目标,这表明现有的DCNN模型在数据驱动的模式下,还很难像灵长类动物大脑一样在复杂开放环境下建立起通用鲁棒的目标表征。大脑是灵长类动物行为和认知的控制中枢,利用视觉专家的大脑响应为复杂场景下的图像解译提供有益的指导信息,将图像内容的感知与解译过程同大脑的认知能力相结合,可以实现不同来源信息的交互、整合,融合各自所长,构建新型的智能模式。本论文针对复杂开放场景下的图像分类任务,结合机器智能和生物智能的优势,研究“脑在环路”建模,“脑不在环路”应用的脑机混合智能计算方法。本论文的研究内容和创新点主要包括以下三点:(1)大脑腹侧视觉通路与DCNN的图像表征差异分析。为了针对性地建立脑机混合智能计算模型,本论文选取大脑负责视觉认知功能的腹侧流脑区响应作为视觉专家大脑对目标的大脑响应表征,研究了大脑腹侧视觉通路和DCNN对于图像信息的编码差异。首先,利用表征相似性分析和神经编码度量的方法分析了腹侧视觉通路和DCNN对图像信息的编码差异;然后,基于表征可分性分析评估了腹侧视觉通路和DCNN对图像目标和场景复杂度的鲁棒性差异。结果表明:尽管大脑响应和DCNN图像特征在整体水平上存在一定的相似性,但是DCNN图像特征很难完全解释大脑响应的表征信息,两者可能以并不完全一致的方式编码刺激图像的高级语义信息,因此在单张图像的个体水平存在编码差异,并且这种编码差异与图像的目标和场景复杂度存在一定关系。相关结论为构建脑机混合智能计算模型提供了指导意义。(2)基于信息融合的脑机混合智能计算方法。针对大脑腹侧视觉通路和DCNN在图像级的个体水平存在编码差异,为了最大化地利用大脑响应和图像特征的互补信息,本论文提出了一种基于特征可靠性的自适应脑机信息融合分类方法。通过构建特征可靠性预测模块分别预测大脑响应和DCNN图像特征在个体水平的可靠性,并根据可靠性计算融合权重,获取融合特征,实现自适应加权融合分类,其性能较单模态分类平均提升5.76%。为了实现“脑不在环路”应用的目的,本论文提出一种基于去噪自编码结构的大脑响应特征域重建方法,在推理应用阶段利用图像特征生成对应的大脑响应特征进行自适应脑机信息融合分类,其性能较单模态分类平均提升0.89%。本论文提出的基于信息融合的脑机混合智能计算方法能够利用大脑腹侧视觉通路和DCNN的编码差异,有效提升了复杂开放场景下图像分类的性能,并且适用于“脑不在环路”应用的场景。(3)基于共享表征空间的脑机混合智能计算方法。本论文探索了利用对比学习方法将大脑响应中的认知信息迁移到DCNN模型中的可行性,提出了一种基于正负样本采样的对比学习方法构建共享表征空间,引入类别信息,最大化图像-大脑响应的关联信息,将大脑响应中的认知信息迁移到公共表征空间中。该方法可以直接实现“脑在环路”建模,“脑不在环路”应用的目标,能够在有限的数据下,学习到大脑响应和图像特征之间的目标关联信息,并且显著提升了复杂开放场景下图像分类任务上的性能,较单模态分类平均提升7.43%,达到最优性能。本论文的研究为复杂开放场景下的图像分类任务提出了一种新型的混合智能计算方法,能够实现大脑高级视觉认知信息的迁移,有效地提升图像分类任务的性能,为计算机视觉和认知科学领域的交叉应用提供了一个新的研究思路。
其他文献
随着电子信息技术的迅速发展,人们对光的认知不断地加深,不同波段光信息的获取变得尤为重要,通过光电传感器的数据采集与传输系统是获取光信息的重要手段。目前,大多数的数据采集系统可采集的通道数量有限且系统的功能也比较单一,难以根据光电传感器通道的数量进行灵活地扩展和系统升级。因此,本文根据多通道光电探测器阵列实际需求,研究探测器阵列、模拟信号调理模块、数据采集模块、信号处理模块与传输接口模块等结构及其相
视觉目标跟踪是计算机视觉领域的一项经典研究课题,在视频监控、自动驾驶和人机交互等方面应用广泛。尽管对于目标跟踪的研究取得了很大进展,但单模态信息的局限性和不确定性影响跟踪效果,如可见光成像受光照、雨、烟和霾等环境条件的影响较大,红外成像虽受环境影响小,但其成像机理导致红外图像分辨率较低、纹理少,在热交叉条件下目标与背景难区分等。基于可见光和热红外(RGB/Thermal,RGBT)的双模视觉跟踪器
随着机器学习、深度学习技术的进一步发展,基于表示学习的分类算法性能有了很明显的提升,但基于表示关系的算法大多仅通过原始样本的直接关系进行建模,而如何在子空间或表示空间也能够保持原始数据的相似性关系和空间结构,是提升表示学习模型性能的关键。本文立足于表示学习中的子空间学习、字典学习和深度字典学习,研究具有更高识别精度的表示算法。所取得的研究成果如下:(1)针对子空间学习算法或未能考虑样本的类标信息,
肺癌是人类最常见的恶性肿瘤之一,同时也是全球癌症相关死亡的主要原因,每年导致大约180万人死亡,其中肺腺癌是一种最常见的肺癌组织学类型。近年来,尽管针对一些致癌驱动因素的靶向治疗以及针对免疫检查点的免疫疗法取得了显著的临床成功,但是仍然有很大比例的肺腺癌患者无法进行靶向治疗,而且还经常观察到对靶向治疗的耐药性。此外,免疫疗法的功效也仅限于某些患者,且在个体之间存在显著的差异。肺腺癌是一个动态的进展
随着传感器和计算机技术的发展,人们见证了信息的超载和数据特征的爆炸式增长。通常这些数据具有数千甚至数十万个维度,严重制约了现实视觉任务的计算效率。为了解决这一问题,学者们提出了许多特征表示方法来挖掘数据中真正有用的信息。本文立足特征表示学习领域,分别围绕子空间学习、多视角学习和小样本学习任务,研究具有更高识别率的分类算法。论文所取得的研究成果如下:首先,针对基于协作图的判别分析(CGDA)没有充分
医用射频消融技术是一种将射频电子电路技术和医疗科学相结合的技术,利用交变电流导入人体时产生的热效应达到切割、凝血、消融等不同效果。该技术具有微创、显著减少出血等优点并被广泛应用于各类肿瘤治疗与呼吸道治疗中。目前市面上实际应用的医用射频消融设备以欧美、日韩等国的品牌为主,国内相关设备的研发起步较晚,并存在一定的问题。因而,研发具有自主知识产权的高精度医用射频消融技术具有重要意义。本文首先对射频电信号
基于深度学习的医学图像分割算法往往需要大量的标记样本用于网络训练。然而,医学图像的像素级标记成本较高、难度较大,且需要具备专业知识。这导致目标域中通常不存在手工标注的样本。并且,由于医学图像的异构性与复杂性,来自不同成像设备的数据之间存在分布差异,这种分布差异构成的域偏移会使得在源域上训练得到的分割模型应用于目标域时的性能发生退化。利用迁移学习的思想,将源域中的知识迁移到无标记的目标域上,是解决以
伴随着人工智能技术的日渐成熟,“智慧城市”这一词汇逐渐被人们所关注。图像的语义分割作为计算机视觉领域中的重要任务之一,在建设“智慧城市”的进程中起到重要作用。比如,在自动驾驶领域中对传输图像进行语义分割帮助车辆进行路线的规划;对飞机着陆前拍摄的俯视图进行语义分割辅助飞行员安全着陆。近年来,基于卷积神经网络的方法在语义分割问题上取得了一系列突破,主流的语义分割网络通常基于编解码器结构。但在大部分语义
随着电子信息技术等相关技术的发展,视频已经逐渐成为生活中不可或缺的信息媒介。当前各种数字环境中存在的海量视频数据具有着极大的价值,因此,利用计算机进行视频的内容理解、信息挖掘已经成为研究者的重要课题。近年来,深度学习在图像处理等领域取得了前所未有的成功,这也促使了基于视频的人体行为识别技术的发展。目前行为识别领域还存在着诸多挑战,比如人体行为在类内和类间均有较大的变化,不同视角、不同速度下的同一类
近年来,随着计算资源以及数据规模的大幅增长,深度学习取得了前所未有的成功。在多个领域和多种任务上,如图像识别、语义分割、文本分类、语音识别、多模态学习等,深度学习都发挥了举足轻重的作用。然而最近的一些研究发现,对抗样本广泛存在于各种深度学习领域,给深度学习系统的现实应用带来了巨大的威胁,尤其是一些安全性敏感的深度学习系统,如自动驾驶、行人重识别、智慧医疗等。对抗样本是一些在自然图像上添加人为构建的