论文部分内容阅读
作为神经形态计算的一个重要分支,对人类视觉认知与决策的机理及其计算模型进行研究不但能够促进神经科学、计算机视觉、人工智能等科学领域的理论与技术进步,同时也能为生物医疗、智能服务,军事装备研制等国家与社会民生建设提供有力支撑。本文将认知心理学领域中不确定情况下的决策启发式与具体的视觉计算问题相关联,系统的研究和构建了视觉认知中影响决策的若干关键因素的统计计算模型,并在实际问题中对提出的模型进行了应用和验证。本文的具体内容和主要贡献概括如下:首先,本文从统计分析的角度对人眼注视点进行分析,归纳得出视觉显著性的超高斯分布先验,并建立了一个与人类眼动行为极为相似的动态视觉认知框架。在合成图像和自然图像上进行的人眼注视点预测及原型目标检测等相关实验表明,本文提出的模型在性能上明显优于目前国际主流的视觉注意模型和显著性检测算法,能够快速发现信号中的显著模式,同时有效预测和模拟人眼的扫视行为。本部分工作主要回答了“视觉信号中哪些信息是在决策中实际可用的?”,对应了Kahneman理论的“可用性”启发式。其次,本文就视觉注意建模和显著性检测算法研究中涉及的一些核心问题进行了拓展研究。在模型适应性实验中,可以发现不同的模型在图像级别上的性能表现相似,同时也观测到了较低的观察者一致性所造成的模型性能衰减。针对模型尺度的相关实验表明,多尺度融合的策略更适合处理包含了多个尺度的显著目标的场景。在针对模型特征维度的实验中,可以发现高维度的特征并不总是带来性能的提升,完备的特征表达往往不是最优的。最后,基于20种计算模型,提出了一种普适的模型增强算法和基于统计的多模融合策略。再次,本文以基于贝叶斯集的代表性计算模型为基础,引入了认知心理学中的原型理论和网络知识挖掘领域的本体知识库,利用本体知识来构建一个局部的语义上下文环境,同时采用由动态聚类算法挖掘出的原型来对目标概念进行紧凑的表达。在此基础上,进一步构建基于隐含语义的视觉代表性计算模型。与领域现有的模型相比,本文提出的模型能够有效刻画给定样本针对特定语义概念的代表性程度,其在Image Net数据库和本文所构建的互联网图像数据集上的图像排序测试中均取得了更优的性能。本部分工作主要回答了“视觉信号中哪些信息是具有特定语义代表性的?”,对应了Kahneman理论的“代表性”启发式。最后,本文对互联网上视觉媒体数据的分布规律展开了探索,提出人类认知偏好与互联网图像分布的关联假设,建立一个既服从Web数据自身分布特性,又符合人类认知习惯的视觉语义计算模型。实验结果表明,本文提出的模型可以通过语义这一线索将互联网上繁杂的视觉媒体数据组织起来,并把人类嵌入在网络数据中的认知模式(即锚定点)抽取出来,形成抽象语义与视觉媒体之间的量化关联。相关实验还从侧面验证了互联网上确实存在着大量可挖掘的人类知识,同时也为“物体的正则视图”和“决策中的代表性启发式”这两个独立的心理学研究领域建立了形式化的数学联系。本部分工作主要回答了“视觉信号中哪些是决策的锚点”,对应了Kahneman理论的“锚定”启发式。通过上述研究,本文对面向视觉决策的认知机理和计算模型进行了深入的探索,结果表明:Kahneman提出的不确定情况下的决策启发式在视觉决策问题中同样适用,依据“可用性”、“代表性”以及“锚定”这三个启发式建立的认知计算模型能够对人眼扫视、正则视图等视觉认知行为进行合理的解释,同时也能有效解决目标检测、图像排序、标志性样本挖掘等实际的应用问题。