论文部分内容阅读
跨语言文本相似度检测(Cross-Language Text Similarity Detection)在许多跨语言处理应用及其相关领域中发挥着重要作用。跨语言文本相似度检测是指给定不同语言的两段文本,判断它们之间的语义相似程度。对于拥有双语技能的人类来说,这种相似性判断轻而易举、微不足道,但构建模仿人类认知水平的算法和计算模型则是自然语言处理中深刻而困难的问题。跨语言文本相似度检测源于而又难于单语文本相似度检测,原因在于两段文本来自不同的人工符号系统,这种差异导致语言之间形态、语法、句法以及表述结构的不同。为了解决这一问题,通常的做法是进行机器翻译或跨语言文本映射。机器翻译的缺点在于它尚未达到人类水平,翻译过程会功能性地丢失部分语义信息,容易造成翻译不准确;而直接的跨语言文本映射会导致双语之间的语义粒度过大,不能准确地反映跨语言的层级语义特征。另外,在跨语言相似度检测方面还存在跨语言之间一词多义、一义多词和未登录词(OOV)等常见的语言现象,直接影响跨语言文本相似度检测的精度。因此,本文针对跨语言文本相似度检测存在的问题,创新性地提出基于词向量和利用深度语义特征扩展传统语言特征的泛化集成学习的方法,目的是减少跨语言语义提取过程的损失。在不借助机器翻译系统的条件下,通过构建词汇级、句子级的特征表达来完成相似度检测。跨语言相似度检测关键技术主要包括:多义词词向量的构建、跨语言词向量的构建、跨语言的特征工程和相似度度量。本文在关键技术的创新性研究成果如下:1、构建基于非负矩阵分解和稀疏软聚类的多义词词向量模型MSCVec(Multi-sense Soft Cluster Vecter)。MSCVec模型是单语词向量模型,它利用词汇与上下文之间的正点互信息的非负矩阵分解,提取多义词的混合语义的低秩表达,再通过稀疏软聚类算法分割多义词的多重词义,同时也获得了全局意义下多义词隶属度分布;根据计算上下文语义与多义词全局隶属度的负平均对数似然确定具体的多义词簇类,最后在扩展字典的单词集合下再利用Fasttext模型学习多义词词向量。MSCVec模型的优点在于不借助任何知识库,是无监督的学习过程,模型中的子串表征保证了未登录词词向量的生成;另外,MSCVec模型的全局隶属度也可以把多义词词向量期望到单一词向量。与传统的静态词向量相比,MSCVec在单词的相似度和下游文本分类任务实验中均表现出优秀的结果。2、构建基于稀疏注意力对齐模型和孪生网络联合训练的跨语言词向量模型SCLVec(Siamese Cross-Language Vector)。SCLVec模型是共享嵌入词空间的跨语言词向量模型,该模型建立在平行语料库学习基础上,它不需要跨语言词典信息或昂贵的词对齐,仅利用稀疏注意力机制来完成词汇粒度的对齐/映射。为了最大程度兼顾词汇级与句子级的语义相似性,SCLVec模型采用孪生循环神经网络联合训练的方法,通过冻结孪生网络其中一个输入端的词向量层,联合更新另外一输入端的词向量层的方式获得跨语言词向量。在中英文双语同义词和零样本迁移文本分类实验中,SCLVec模型优于其他模型。3、提出基于特征扩展的跨语言句子级语义相似度检测方法。针对目前跨语言句子特征表达语义粒度不完备的问题,首先利用MSCVec多义词词向量和SCLVec跨语言词向量作为(伪)孪生网络的嵌入层训练跨语言句子级的深度语义特征;再利用外部资源获取跨语言的传统统计相似度语言特征。然后把两组特征进行融合扩展成为新的语义特征,并设计相似度分类实验和堆栈泛化实验进行对比。实验结果表明:在跨语言句子级相似度检测任务中,(1)作为输入的嵌入层,SCLVec跨语言词向量词汇级特征优于MSCVec多义词词向量特征;(2)孪生循环神经网络训练的深度语义句子级特征优于孪生卷积神经网络的语义特征;(3)传统统计特征的扩展能有效地提升跨语言的相似度检测性能,特别是跨语言主题模型(BL-LDA);(4)堆栈泛化集成方式能最大化地降低基础分类器的错误率,提高检测精度。