论文部分内容阅读
深度学习是当前机器学习领域研究的前沿与热点之一,深度学习的研究与应用已经在英文自然语言处理领域成功地产生了诸多突破性的成果。在中文自然语言处理领域,基于深度学习的研究近年来方兴未艾。但是,由于中文与英文本质上的不同特点,在英文自然语言处理领域获得良好结果的深度学习模型和方法无法被直接应用于中文,研究人员需要根据中文的特点重新建立合适的深度学习模型,寻找合适的训练方法。 本文在深度学习的英语自然语言处理模型的基础上,提出了适用于中文自然语言处理的深度神经网络模型,以及针对该模型的完整的训练方法,包括无监督预训练方法以及有监督调优训练方法。该模型无需任何语言学知识或手工特征设计,可被用于中文分词、词性标注以及命名实体识别等多种中文自然语言处理任务。具体来说:1)本文针对中文的特点,提出了中文自然语言处理深度神经网络模型;2)本文提出了一个新的优化目标来构造中文神经语言模型,并从理论上说明了使用本文提出的优化目标训练中文神经语言模型等价于训练一个特殊的降噪自动编码器——文本窗口降噪自动编码器(Text Window Denoising Autoencoder);3)本文描述了通过堆叠文本窗口自动编码器来预训练中文自然语言处理深度神经网络的过程;4)本文说明了针对具体任务有监督地调优训练中文自然语言处理深度神经网络的过程。 本文根据提出的模型以及训练方法,建立了一个完整的基于深度神经网络的中文自然语言处理系统。该系统的主要特点为:1)完全基于统计,无需任何语言学知识或手工特征设计;2)支持并行的模型训练,有效地提升了在多CPU核心环境下的模型训练效率;3)支持多任务学习,可以准确、高效的处理原始中文自然语言文本,并同时完成分词、词性标注以及命名实体识别等任务。 本文使用公开数据集在上述系统中进行了实验。实验结果表明,使用本文提出的模型以及训练方法可以有效地解决中文自然语言处理中的分词、词性标注以及命名实体识别问题,并可获得良好的性能。