面向多语言信息检索的匹配与表征对齐方法研究

来源 :昆明理工大学 | 被引量 : 0次 | 上传用户:jhl1989
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的高速发展,网络资源的海量化和网络资源语种的多样性不可避免地给用户从海量资源中搜索目标资源带来了语言障碍。因此,如何让用户在语言多样性的环境下准确地检索到相关信息成为信息检索面临的难题。为了满足这类型用户的需求,多语言信息检索(Multilingual information retrieval,MLIR)随之产生,它可以在多于一种语言的文档数据库中搜索相关文档以响应查询。MLIR的主要挑战在于查询和文档在语义对应上的不确定性,因此,它需要适当地使用翻译知识来对可能属于或不属于查询语言的文档进行评分。本文针对语义对应上的不确定性,将多语言信息检索分为单语言语义匹配和跨语言语义对齐两个子任务,并围绕单语言信息检索和跨语言信息检索分别对两个子任务展开了研究。主要完成了以下研究工作:(1)基于特征自适应识别及鲁棒表征的单语言检索方法针对单语言匹配检索所涉及的查询和文档包含不同数量级的信息并呈现不对称的特点,现有的解决方案主要侧重于对非对称文本之间的特征交互进行建模,但很少进一步识别鉴别信号并进行特征去噪以增强相关性学习。因此,提出了一种基于特征自适应识别及鲁棒表征的匹配模型来实现文档检索。针对每个查询文档对,该模型旨在以上下文感知的方式显式区分鉴别特征并过滤掉不相关的特征。具体而言,首先设计了一种自适应孪生识别门控来识别鉴别特征并为文本对生成相应的混合表示。之后,本文引入了基于局部约束的鲁棒哈希表征学习模块,通过学习用于冗余较长文本的判别低维二进制代码来执行特征级去噪,以此来平衡查询文档信息量的差异性。在四个匹配检索数据集上的广泛实验表明,该方法相比基线模型取得了更好的性能增益,有效的提升了单语言检索精度。(2)基于层级渐进语义对齐的跨语言信息检索方法跨语言文本检索中查询和文档属于两种语言,彼此存在较大的语言差异性,并且对于低资源语言缺乏跨语言的海量标注数据,因此为跨语言文本检索(CLIR)带来了极大的挑战。针对这些问题,论文基于层级渐进语义对齐网络(DLCCFA),实现了更好的跨语言语义对齐,有效提升了文档检索的精度。DLCCFA设计了单词级别的粗粒度过滤器和句子级别的细粒度过滤器。具体来说,针对查询的每一个单词,本文首先通过概率双语词典为查询中的每个标记提取前k个翻译候选。然后,提出了一种翻译概率注意(TPA)机制来为每一个单词获得粗粒度的词对齐,从而生成相应的查询辅助句。之后,本文进一步提出了一种双语交互注意,并利用自注意机制来实现细粒度的句子级语义对齐,从而实现查询的跨语言表示。这个想法是让查询中的每个词都充当锚,以过滤查询辅助句中的语义噪声并准确对齐不同语言的句子级语义。对六种语言的四个CLIR数据集的广泛实验表明,本文方法可以优于CLIR的主流替代方法。(3)多语言文本匹配检索原型系统利用以上研究成果,设计并实现了多语言文本匹配检索原型系统。集成了英语作为查询输入的单语言信息检索模型和跨语言信息检索模型,并为用户提供了可视化的信息获取平台。
其他文献
钢铁产业对于国家经济发展有着重要的意义。转炉炼钢技术因为相对高效和低成本的优势,是目前世界范围内主要的钢铁冶炼技术之一,其冶炼的关键在于对转炉终点的准确控制。实际上,转炉中钢液的终点碳含量和温度与转炉终点控制有着密切的联系,也是判断钢液是否达到出钢标准的重要指标。因此,实现对转炉炼钢终点碳温精确实时预报可以有效降低转炉炼钢生产成本,提高生产效率,对于保护环境、节能减排也有着积极的意义。本文针对转炉
学位
Fe-Mn-Al-C低密度高强度钢具有优异的力学性能、良好的抗冲击性以及较低的密度等优点,将成为未来汽车用钢的主要材料,是目前实施汽车轻量化目标的主要研究方向之一。但由于添加了大量的Al(高达13%)和Mn(高达32%),使得它在冶炼、锻造、微观结构和塑性变形机理等方面,与普通用钢的研发与设计存在着较大的差异,采用传统的试错法实验大大减缓了其研发进度。目前机器学习技术已经广泛地应用于材料性能预测以
学位
卷烟是一种特殊的消费品,通常要求吸食口感长期保持稳定。复烤企业作为烟草生产链的关键环节,实现对烟叶的初步加工及模块化配方打叶,对不同质量的烟叶进行协调搭配,为卷烟企业提供稳定的原材料。但在实际生产中,烟叶质量受气候、土质等因素的影响,复烤配方的波动性较大,复烤企业只得盲目备料、或出现配方中某等级单料烟库存不足的情况,导致库存压力以及资源占用大。因此,合理备料、提高资源利用率是复烤企业亟待解决的问题
学位
神经机器翻译是一种依靠数据驱动的机器翻译方法,在双语平行语料充足的语种间表现优异,但在中文-越南语这类低资源机器翻译任务中,中文-越南语的双语平行语料不足,导致中文-越南语的机器翻译的性能并不理想,如何在有限的数据中挖掘出更多的语言信息来提升机器翻译模型性能是针对低资源机器翻译的热门研究方向。当下各研究机构针对单语大规模语料设计了预训练语言模型,从大规模的单语数据中预训练语言模型通过训练能够充分学
学位
越南语新闻事件检测及共指关系识别,旨在检测出越南语新闻文本中句子级的事件信息,并在此基础上分析事件之间是否从不同的角度描述同一件真实事情。该任务目前存在相关语料匮乏、深层语义难以表征以及数据噪声问题。因此,本文基于多头注意力机制以及生成对抗网络,对越南语新闻进行深层语义挖掘与数据降噪,提升了越南语新闻的事件检测及共指关系识别的性能。论文主要工作如下。(1)越南语新闻事件检测及共指关系识别语料构建。
学位
随着中国与越南的交流越来越密切,汉语-越南语的翻译技术需求不断增长,汉语-越南语这种低资源场景下的翻译技术研究越来越好。然而现阶段研究的翻译技术,更多的是针对正式文体的使用场景,如新闻文本,官方文件等的翻译。对于非正式文体,如网络评论,口语日常对话等使用场景,在同样的翻译模型下,翻译性能明显不足。原因就是在这些场景下,经常出现不符合正常语法的表达方式——代词省略,造成句法成分缺失。这些对于人而言可
学位
多模态机器翻译是利用不同模态的信息辅助文字翻译的任务,视频引导机器翻译是一种多模态机器翻译任务,其目标是通过视频和文本的结合来产生高质量的文本翻译。随着信息技术的快速发展,视频引导机器翻已经逐渐成为人们进行跨语言交流的重要手段,也逐渐成为人工智能领域研究热点问题,在自然语言处理、多媒体和计算机视觉领域受到了很大的关注,因为它可以支撑更多的实际应用。虽然该模型已取得一定的研究成果,但仍然存在着一些待
学位
随着深度学习的发展,神经机器翻译模型在各种翻译任务上都取得了卓越的表现,但由于模型参数规模庞大、结构复杂、自然语言在模型内部以不可理解的数字形式传递等原因,神经机器翻译模型仍是“黑箱”模型,其内部工作机制尚无法被直观理解,这导致了难以在原有模型的基础上进一步提升翻译质量等问题。因此,神经机器翻译的可解释性工作具有较大研究价值。为了进一步增进对神经机器翻译工作机制的认识,本工作以目前使用最广泛的Tr
学位
癌症已经成为威胁人类健康的首要疾病,其中肺癌的死亡率又远高于其他癌症类型,其初期检测和防范就显得极其重要。核医学领域PET/CT在癌症的早期检测中发挥着越来越重要的作用。但是由于患者在扫描过程中不自主的呼吸运动,会造成呼吸运动伪影,给医生的诊断带来困难,因此寻求一种有效的方法来提高PET图像质量,降低成像的伪影显得格外重要。为此,本文提出了两种基于深度学习的PET呼吸运动图像伪影校正方法。(1)本
学位
随着经济的快速发展,化石能源消耗与日俱增,环境污染问题愈发严重,大力发展风电是实现低碳转型的重要举措之一。近年来我国风电发展非常迅速,自2013年我国风电装机容量稳居世界第一,至2021年年底累积装机容量已达3.3亿千瓦。然而,风力发电具有较强的随机性和波动性,难以精确预测及调度。随着风电并网容量的不断增加,给电力系统运行的影响也进一步加剧。为此,本文考虑风电出力的不确定性,对含风电的电力系统鲁棒
学位