基于深度学习的中文自然语言处理

来源 :东南大学 | 被引量 : 0次 | 上传用户:bassjhnn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
深度学习是当前机器学习领域研究的前沿与热点之一,深度学习的研究与应用已经在英文自然语言处理领域成功地产生了诸多突破性的成果。在中文自然语言处理领域,基于深度学习的研究近年来方兴未艾。但是,由于中文与英文本质上的不同特点,在英文自然语言处理领域获得良好结果的深度学习模型和方法无法被直接应用于中文,研究人员需要根据中文的特点重新建立合适的深度学习模型,寻找合适的训练方法。  本文在深度学习的英语自然语言处理模型的基础上,提出了适用于中文自然语言处理的深度神经网络模型,以及针对该模型的完整的训练方法,包括无监督预训练方法以及有监督调优训练方法。该模型无需任何语言学知识或手工特征设计,可被用于中文分词、词性标注以及命名实体识别等多种中文自然语言处理任务。具体来说:1)本文针对中文的特点,提出了中文自然语言处理深度神经网络模型;2)本文提出了一个新的优化目标来构造中文神经语言模型,并从理论上说明了使用本文提出的优化目标训练中文神经语言模型等价于训练一个特殊的降噪自动编码器——文本窗口降噪自动编码器(Text Window Denoising Autoencoder);3)本文描述了通过堆叠文本窗口自动编码器来预训练中文自然语言处理深度神经网络的过程;4)本文说明了针对具体任务有监督地调优训练中文自然语言处理深度神经网络的过程。  本文根据提出的模型以及训练方法,建立了一个完整的基于深度神经网络的中文自然语言处理系统。该系统的主要特点为:1)完全基于统计,无需任何语言学知识或手工特征设计;2)支持并行的模型训练,有效地提升了在多CPU核心环境下的模型训练效率;3)支持多任务学习,可以准确、高效的处理原始中文自然语言文本,并同时完成分词、词性标注以及命名实体识别等任务。  本文使用公开数据集在上述系统中进行了实验。实验结果表明,使用本文提出的模型以及训练方法可以有效地解决中文自然语言处理中的分词、词性标注以及命名实体识别问题,并可获得良好的性能。
其他文献
近年来,随着无线通信技术和移动设备的快速发展,移动应用日益普及,移动计算成为新兴的研究领域。由于移动环境的特点,给移动环境下的数据管理带来了新的问题和挑战,同时,人们对访问
过去十年中,分布式对象技术得到了迅速发展并在制造、金融电信、保险和交通运输领域得到了广泛的应用。CORBA是一个分布式对象的应用架构规范,由于其独立于网络协议、独立于编
随着对武器装备检测与故障诊断的实时性和自动化需求的增加,远程测试和故障诊断有着广阔的应用前景,大量的试验参数需要采用更为先进的技术进行实时采集与综合分析,这对测试设备
聚类算法在数据分析,数据挖掘等许多地方有广泛的应用,该文探索了基于量子行为的微粒群优化算法(QPSO)的数据聚类及其在图像分割中的应用。首先,在分析K-Means聚类、PSO聚类
数字水印技术作为信息安全领域的一个新的研究热点,已成为多媒体数据版权保护和内容认证的重要手段之一。近年来由于研究人员的关注和重视,产生了很多优秀的、成熟的水印算法,尤
由于网络技术的快速发展为IP网络实现多媒体通信提供了基础条件,IP TV、视频会议、多媒体远程教育等宽带网络应用成为热点。多媒体会议领域可分为两类:基于硬件的会议系统和基
元搜索引擎是独立搜索引擎之上的搜索引擎,是搜索引擎技术的一个重要分支,也是搜索引擎发展的重要部分。地图搜索是搜索引擎市场的最新亮点,是搜索引擎技术在电子地图上的重要应
随着网络技术和嵌入式技术的发展,传统TCP/IP协议栈不能很好的适应嵌入式设备接入Internet的需求。一方面,传统TCP/IP协议栈对处理器的运算能力和存储能力要求比较高;另一方面,IPv4
本文首先介绍了分布式数据库系统的基本概念,然后简要描述了分布式查询的处理过程;重点描述了各种分布式数据库的查询处理及优化算法,如基于关系代数等价变换规则的优化算法
在实际应用中,不确定性是许多系统的固有特性,如电力传输网中的元器件、数据通信网中的节点都存在着发生故障的概率,交通运输网中也有着发生拥塞的概率等。可将这类应用中的系统