论文部分内容阅读
深度学习模型已经在众多应用领域取得了引人瞩目的成功。相对于经验意义上的成功,深度学习在模型设计和训练方法等方面的理论基础相对薄弱。实际中,研究者需要通过大量试错来设定模型结构和控制模型训练过程。由于缺乏理论指导所造成的设计复杂性已成为限制深度学习更广泛应用的瓶颈。本文旨在解决无监督设置下神经网络的参数选择(约简)问题:利用尽量少的参数,保留尽量多的目标概率分布的信息,用以提高应用模型的计算效率和泛化能力。论文将玻尔兹曼机作为研究对象,因为:1)其作为基本构件广泛应用于很多深度学习模型中;2)信息几何理论为其提供了较完备统一的理论分析工具和解释视角。基于信息几何理论,我们将模型的参数选择问题转化为统计流形上几何结构的最大化保持问题。具体的,本文的主要研究内容包括:1.提出了多元布尔分布族的一般性参数选择准则。参数的相对重要程度定义为Fisher-Rao信息距离在该参数方向的贡献分量(称为可信度)。我们可以保留可信度高的参数,而给低可信度的参数赋予中立值(通常为0)。上述参数选择准则称为可信信息优先原则。我们证明可信信息优先原则所实现的子流形可以最大程度地保持概率单纯形上任意一点与其小ε-邻域球上各点之间的期望Fisher-Rao信息距离。2.解析了不同类型玻尔兹曼机对可信信息优先原则的实现方式,进而揭示玻尔兹曼机估计多元布尔分布的优化意义。3.提出了在给定样本情况下玻尔兹曼机的高效模型选择算法。我们可以依可信度确定模型参数的优先顺序,并设计了假设检验方法用以自动辨识参数可信度的显著性水平,显著降低了模型选择的时间复杂度。4.提出了针对深度神经网络的结构正则化方法,用于解决训练过程中的过拟合问题。我们通过保留可信度高的边组成可信网络(称为ConfNet),并设计训练算法实现网络结构的动态调整,达致模型复杂性与训练样本规模之间的平衡。