论文部分内容阅读
随着信息时代的来临,人工智能从学术研究转变为应用驱动,智能系统用于认知、识别、分析和决策等方面,其本质和最终目标是模拟人类意识与思维的过程。由于大量数据、复杂的深度非线形模型和计算性能,造就了深度学习当前的技术发展,掀起了人工智能的新一轮浪潮,因此数据收集、整理、算法设计及高性能计算等技术对智能发展起着关键核心和驱动作用。网络组件是各种神经网络模型的基础组成和关键特色之处,如卷积神经网络中的卷积、池化等组件。如何对这些组件进行有效的超参数设置和方法设计,在可能的超参数空间中进行搜索,是整个架构能够高效训练及应用的基础。通过组件的相关基础研究,不同数据场景下需要不同的网络组件及超参数设置,而充足的数据是训练智能模型的前提条件,任何关键技术和模型都需要在数据的支撑下进行场景应用,使智能技术在各个产业上进行大规模的应用与发展。随着神经网络整体架构规模设计越来越大,越来越深,网络节点也随之越来越多,训练过程都需要耗费大量资源,因此如何有效的减轻计算资源负担且能保证模型一定的性能是未来后续工作的一个研究重点。根据神经网络中存在的数据、模型问题,本文分别从网络组件、数据应用和浅层架构延展来设计,根据“网络组件-场景分析-架构延展”脉络的主要挑战和研究思路,聚焦于以下三个研究点来开展研究工作:(1)通过对卷积网络中的卷积核组件进行自适应选取、特征融合和浅层网络中恒等映射分析,提出Tception模型;(2)分析中文医疗文本问答数据特性,设计网络组件关系,提出Tception CAE模型并进行聚类应用,通过实验来探讨每种类别间的语义关系和主题分析;(3)根据生物细胞的新陈代谢机制,结合神经网络中节点资源消耗等问题,通过隐藏层神经元的新增与自噬过程,利用不同方法进行参数学习,从而使得模型架构自动进行延展,形成动态延展网络架构。首先,如何对超参数进行自适应设置和组件结合操作是神经网络设计的基本问题,本文聚焦于卷积神经网络,针对多卷积核设置需先验知识和不同场景下特征融合方法的重要性,根据卷积核自适应选取、特征融合与恒等映射方法分析,提出Tception模型。由于单卷积核特征提取有限,多卷积核可以获取层次复杂特征,捕获信息要素之间的空间相关性,提出基于集成学习理念设计多卷积核自适应选取方法来增加特征多样性;特征融合可从不同层面对数据中的多个特征进行集中性区分,消除特征间的冗余,从特征间关系与融合方式出发,提出四种不同的特征融合方法;特征重用可提高模型性能,提出不同的恒等映射来增强特征传播,鼓励特征重用,进行浅层网络中残差的分析和探索。其次,如何分析数据特性和进行不同场景下的组件选择是应用中的实际问题,本文聚焦于中文医疗文本问答数据,针对如何通过数据特性和场景分析进行模型设计问题,提出基于Tception CAE模型(Tception Convolutional Autoencoder Model)的医疗文本聚类应用。通过医疗平台收集用户医学问答文本数据,用户对病情的描述存在专业性不强、文本稀疏、高维语义、数据标注专业且难、标签信息偏差等情况,设计卷积自编码模型,对无标签数据进行无监督的特征表示学习;根据实际应用任务,依据聚类集成思想对卷积核进行选取;从数据特性层面考虑基本网络组件设计,通过真实的文本数据对网络组件中所提方法进行各种实验比较,获取聚类结果各科室间的语义关系、主题词云及问答关联分析。最后,如何有效的减轻神经网络模型计算资源负担,但能保证模型一定的性能是未来深度学习研究的重点问题,受细胞新陈代谢具有增殖和自噬作用启发,聚焦于每层神经元数的自我调节机制,针对如何通过增殖新神经元和吞噬衰变神经元来进行网络代谢,提出从网络神经元角度设计普遍适用性的动态延展网络DSN(Dynamic Stretch Network on Broad Direction)。DSN利用网络动态增长来科学、全面地探讨浅层神经网络的延伸行为,首先初始化给定一个小的网络模型,根据DSN中提出神经元新增条件,借鉴元学习方法,静态或动态技术生成新的隐藏神经元,利用不同技术为这些引入的神经元进行权值学习。为了保持模型的高效性,结合网络中的自噬条件,在网络更新前筛选出需要删除的神经元进行淘汰。研究网络模型的自我调节功能,节约资源,提高效率。