论文部分内容阅读
随着中国国力的日益增强,中文信息处理(CLP,Chinese Language Processing)受到越来越多的重视。目前基于深度学习的自然语言处理的研究主要集中在字母语言(Alphabetic Language)领域,中文基于深度学习的自然语言处理方法大多借鉴自字母语言。无论在词法、句法、语义等不同的层面上,还是在词汇、短语、句子和篇章等不同的语言单位上,中文与英语等字母语言相比即有共性也存在差异。字符级(Character-level)信息处理方法能够有效解决未登录词(Out of Vocabulary)问题和低频词(Low frequency Words)问题,现阶段中文信息处理并没有将处理粒度拆分到足够细的程度,因此中文依然面临未登录词和低频词的困扰。由于汉字种类繁多,无法与其他字符进行统一处理。由于汉字编码的问题,数据处理开销较大。本文通过对中文词的构造特性以及汉字内部特征,构造了中文特有的基于笔画的中文词向量表示学习方法。在此基础上,结合中文语言各粒度和维度的层次特征,结合字、词、音、形等多种特征,构建全新的中文词表示,并运用到中文信息处理任务中。最后,针对数据训练过程中的数据预处理问题,结合分布式处理手段对模型训练进行加速。本文针对上述问题分别展开研究,所做的主要工作及创新点包括:1.本文提出了基于通用笔画的汉字编码方法,经过多次增补覆盖了 CJK统一汉字20902个汉字,为基于笔画的表示学习奠定了坚实的基础。并将汉字笔画编码引入手写汉字识别,为手写汉字识别提供了新的解决思路。2.本文提出了基于笔画的中文词向量表示学习方法,为中文自然语言处理提供了一种真正字符级(Character-level)的表示学习思路,有效解决了中文词表示学习的未登录词和低频词的问题。使用相似部件对笔画向量进行训练,能够更好地提取汉字之间的关联特征。3.通过对不同粒度特征的分析,本文提出了基于多维度特征的中文词表示学习算法。该方法结合中文词的音、形、字、词多个维度的特征,在保证细粒度特征在未登陆词和低频词上优势的前提下,更好地结合更多维度的特征。在一定程度上,解决了形近错别字、谐音同音错别字对文本理解带来的影响。4.针对模型预处理过程的效率问题,本文提出了基于内存的数据备份策略与数据迁移策略,以解决数据预处理的热点数据问题及热点数据汇聚问题。