基于词向量的跨语言文本相似度检测关键技术研究

来源 :重庆大学 | 被引量 : 1次 | 上传用户:chenlijuan1986
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
跨语言文本相似度检测(Cross-Language Text Similarity Detection)在许多跨语言处理应用及其相关领域中发挥着重要作用。跨语言文本相似度检测是指给定不同语言的两段文本,判断它们之间的语义相似程度。对于拥有双语技能的人类来说,这种相似性判断轻而易举、微不足道,但构建模仿人类认知水平的算法和计算模型则是自然语言处理中深刻而困难的问题。跨语言文本相似度检测源于而又难于单语文本相似度检测,原因在于两段文本来自不同的人工符号系统,这种差异导致语言之间形态、语法、句法以及表述结构的不同。为了解决这一问题,通常的做法是进行机器翻译或跨语言文本映射。机器翻译的缺点在于它尚未达到人类水平,翻译过程会功能性地丢失部分语义信息,容易造成翻译不准确;而直接的跨语言文本映射会导致双语之间的语义粒度过大,不能准确地反映跨语言的层级语义特征。另外,在跨语言相似度检测方面还存在跨语言之间一词多义、一义多词和未登录词(OOV)等常见的语言现象,直接影响跨语言文本相似度检测的精度。因此,本文针对跨语言文本相似度检测存在的问题,创新性地提出基于词向量和利用深度语义特征扩展传统语言特征的泛化集成学习的方法,目的是减少跨语言语义提取过程的损失。在不借助机器翻译系统的条件下,通过构建词汇级、句子级的特征表达来完成相似度检测。跨语言相似度检测关键技术主要包括:多义词词向量的构建、跨语言词向量的构建、跨语言的特征工程和相似度度量。本文在关键技术的创新性研究成果如下:1、构建基于非负矩阵分解和稀疏软聚类的多义词词向量模型MSCVec(Multi-sense Soft Cluster Vecter)。MSCVec模型是单语词向量模型,它利用词汇与上下文之间的正点互信息的非负矩阵分解,提取多义词的混合语义的低秩表达,再通过稀疏软聚类算法分割多义词的多重词义,同时也获得了全局意义下多义词隶属度分布;根据计算上下文语义与多义词全局隶属度的负平均对数似然确定具体的多义词簇类,最后在扩展字典的单词集合下再利用Fasttext模型学习多义词词向量。MSCVec模型的优点在于不借助任何知识库,是无监督的学习过程,模型中的子串表征保证了未登录词词向量的生成;另外,MSCVec模型的全局隶属度也可以把多义词词向量期望到单一词向量。与传统的静态词向量相比,MSCVec在单词的相似度和下游文本分类任务实验中均表现出优秀的结果。2、构建基于稀疏注意力对齐模型和孪生网络联合训练的跨语言词向量模型SCLVec(Siamese Cross-Language Vector)。SCLVec模型是共享嵌入词空间的跨语言词向量模型,该模型建立在平行语料库学习基础上,它不需要跨语言词典信息或昂贵的词对齐,仅利用稀疏注意力机制来完成词汇粒度的对齐/映射。为了最大程度兼顾词汇级与句子级的语义相似性,SCLVec模型采用孪生循环神经网络联合训练的方法,通过冻结孪生网络其中一个输入端的词向量层,联合更新另外一输入端的词向量层的方式获得跨语言词向量。在中英文双语同义词和零样本迁移文本分类实验中,SCLVec模型优于其他模型。3、提出基于特征扩展的跨语言句子级语义相似度检测方法。针对目前跨语言句子特征表达语义粒度不完备的问题,首先利用MSCVec多义词词向量和SCLVec跨语言词向量作为(伪)孪生网络的嵌入层训练跨语言句子级的深度语义特征;再利用外部资源获取跨语言的传统统计相似度语言特征。然后把两组特征进行融合扩展成为新的语义特征,并设计相似度分类实验和堆栈泛化实验进行对比。实验结果表明:在跨语言句子级相似度检测任务中,(1)作为输入的嵌入层,SCLVec跨语言词向量词汇级特征优于MSCVec多义词词向量特征;(2)孪生循环神经网络训练的深度语义句子级特征优于孪生卷积神经网络的语义特征;(3)传统统计特征的扩展能有效地提升跨语言的相似度检测性能,特别是跨语言主题模型(BL-LDA);(4)堆栈泛化集成方式能最大化地降低基础分类器的错误率,提高检测精度。
其他文献
四种乙酰化阔叶木磨木木素(MWL_s)(Ac-er platanoides,Carpinus betulus,prunus aviumand Quercus robuy),两种乙酰化草类磨木木素(Bambusa tulda,Triticum aestivum),一种非
生物毒素是一类由植物、动物以及微生物代谢过程中产生的具有毒性的有机化合物,其生物毒性对人民的生产生活造成巨大威胁,因此已成为热点领域。为了对生物毒素进行定量和定性
当前,我国A股票市场成为世界第二大股票市场,股价暴跌状况伴随而来,对股东利益与投资者心理都产生了不小的冲击,严重干扰了资本市场的秩序、资源配置的效率和实体经济的进步
认识冰岛,因为一个叫Sigur R6s的后摇乐队,爱上冰岛,也因为他们在采访中一句很简单的话“在冰岛,有风吹到,都会有想哭的感觉。”冰岛仿佛是隔离于俗世之外的一座孤岛,在北极
钢琴作品《双飞蝴蝶主题变奏曲》体现了中国特有的民族风格和审美情趣,成功地将传统音乐的特点与西方音乐创作手法相结合,演奏者必须发挥自己的想象力拓展乐曲的意境,才能真
萨凡纳河厂(SRS)从反应堆燃料中回收的237Np目前正被加工为NpO2,用于将来生产238Pu。利用了几种纯化流程,氧化溶剂萃取(SX)流程用来除去铁、硫酸根离子和钍,同时将237Np、238Pu、
会议
风险企业核心竞争力的培养和提升问题,是促进中国风险企业健康发展必须解决的一个现实问题。本文通过对风险企业特征的界定,选取41个中国成功风险企业企业家访谈录作为样本。
IaaS云计算资源按需获取、应用执行环境个性化定制的特点吸引着越来越多的组织机构基于云平台技术构建高性能计算集群。高性能计算云平台弹性资源使用模式虽然提高了系统的资
本文的主要内容是研究了稀疏径向基函数神经网络的结构与算法实现,并将其应用于图像和高斯分子表面的表示问题中。基于此,本文就稀疏径向基函数神经网络及其应用展开研究,主
间座壳属真菌是一类重要的植物病原真菌,该真菌类群在世界范围内广泛分布,在热带和亚热带生态系统中生物多样性尤其丰富,且其宿主专一性不高,能够引起多种植物发生多种病害。作为内生真菌的重要类群,间座壳属种的部分真菌能够产生多种具有生物活性的次级代谢产物,为掌握中国西南地区间座壳属的真菌种类,丰富真菌资源,在贵州、云南、广西等省区采集标本,分离菌株,并对菌株进行多基因系统学分析与形态学相结合的鉴定方法,对