基于深度学习的中文词表示学习技术研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:lichlei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着中国国力的日益增强,中文信息处理(CLP,Chinese Language Processing)受到越来越多的重视。目前基于深度学习的自然语言处理的研究主要集中在字母语言(Alphabetic Language)领域,中文基于深度学习的自然语言处理方法大多借鉴自字母语言。无论在词法、句法、语义等不同的层面上,还是在词汇、短语、句子和篇章等不同的语言单位上,中文与英语等字母语言相比即有共性也存在差异。字符级(Character-level)信息处理方法能够有效解决未登录词(Out of Vocabulary)问题和低频词(Low frequency Words)问题,现阶段中文信息处理并没有将处理粒度拆分到足够细的程度,因此中文依然面临未登录词和低频词的困扰。由于汉字种类繁多,无法与其他字符进行统一处理。由于汉字编码的问题,数据处理开销较大。本文通过对中文词的构造特性以及汉字内部特征,构造了中文特有的基于笔画的中文词向量表示学习方法。在此基础上,结合中文语言各粒度和维度的层次特征,结合字、词、音、形等多种特征,构建全新的中文词表示,并运用到中文信息处理任务中。最后,针对数据训练过程中的数据预处理问题,结合分布式处理手段对模型训练进行加速。本文针对上述问题分别展开研究,所做的主要工作及创新点包括:1.本文提出了基于通用笔画的汉字编码方法,经过多次增补覆盖了 CJK统一汉字20902个汉字,为基于笔画的表示学习奠定了坚实的基础。并将汉字笔画编码引入手写汉字识别,为手写汉字识别提供了新的解决思路。2.本文提出了基于笔画的中文词向量表示学习方法,为中文自然语言处理提供了一种真正字符级(Character-level)的表示学习思路,有效解决了中文词表示学习的未登录词和低频词的问题。使用相似部件对笔画向量进行训练,能够更好地提取汉字之间的关联特征。3.通过对不同粒度特征的分析,本文提出了基于多维度特征的中文词表示学习算法。该方法结合中文词的音、形、字、词多个维度的特征,在保证细粒度特征在未登陆词和低频词上优势的前提下,更好地结合更多维度的特征。在一定程度上,解决了形近错别字、谐音同音错别字对文本理解带来的影响。4.针对模型预处理过程的效率问题,本文提出了基于内存的数据备份策略与数据迁移策略,以解决数据预处理的热点数据问题及热点数据汇聚问题。
其他文献
对等网络(Peer-to-Peer Network,简称P2P)发展至今,主要经历了三代的变革。其中,结构化对等网络(Structured Peer-to-Peer Network)以其在分布式查找方面的高性能和准确性成
服务器的计算能力大大加强促使了虚拟化技术的复苏。虚拟化技术实现了多个服务器的整合,提升了资源的利用率,但是整合在一起的多个服务器会争用主机的各种资源。如何评测虚拟
近年来,基于智能Agent的软件开发和建模技术在软件工程领域的地位越来越重要,本文在对电力企业智能Agent抽象体系结构研究的基础上引入非正规模态算子,给出了一种新的智能Age
随着Internet技术和企业信息化建设的发展,构建Web应用系统的需求日益复杂,开发周期也越来越短。面对复杂多变的市场环境,如何快速开发扩展性好、重用性高、安全性强的Web应
成熟的应用软件系统已经被运行在单个UE(Unit of Execution)的硬件环境中来帮助人们解决数据和业务逻辑问题。但是随着计算机的广泛应用,软件系统被应用到越来越复杂的问题当
煤矿安全生产是煤炭经济可持续发展的基础和保证。随着煤矿事故的频繁发生,如何提高煤矿机械设备的安全性和可靠性成为人们普遍关注的问题。采煤机作为煤矿生产中的关键设备,
随着人们对高清晰图像需求的提高,图像采集系统硬件的性能越来越满足不了这种需求。一种软件实现方法逐渐受到研究人员的关注,它不但弥补了硬件系统的限制,而且只在重复使用现有
从生物医学文献中抽取蛋白质交互作用关系是二十一世纪生物医学领域研究的热点内容之一,研究并实现有效的蛋白质交互作用关系抽取方法是本文的主要研究内容。本文在深入研究
本文结合粒度计算中的商空间相关理论与聚类分析进行交叉技术研究,首先给出了一种基于商空间的模糊聚类方法模型,该模型提高了对高维数据的处理能力,并对模糊相似矩阵的构建
非线性学科是非线性领域中的一门学科,混沌是其中的一个重要组成部分。本文研究了混沌系统的广义同步与相同步,并通过理论推导加以证明,数值实验说明了这些方案的有效性与可行性