针对低同构性语种对的跨语言词对齐研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:zhangtaozheng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
跨语言词对齐作为跨语言领域的一项基础研究,专注于两个语种之间单词级别的对齐,是其他跨语言任务的上游任务和重要支撑。随着深度学习技术在跨语言领域的普遍应用,研究者们近年来在跨语言词对齐的研究上取得了巨大的进步,但现有的方法依然存在着以下不足:1)现有的跨语言词对齐方法大都依赖于语种词向量空间之间的同构性,针对低同构性的语种对任务,这些方法不能取得令人满意的效果。2)基于对抗式的无监督跨语言词对齐方法没有在生成对抗网络的常见问题如梯度消失、模式坍塌等问题上做优化改进,导致模型存在训练不稳定的情况,其中,在低同构性语种对的跨语言词对齐上尤为明显。3)有监督跨语言词对齐方法中训练的双语词典信息过少,不足以反映低同构性语种对中更为复杂的语种空间。为了解决以上问题,本文针对低同构性语种对跨语言词对齐(以下简称词对齐)主要进行了以下两个方面的研究工作:(1)本文提出了一种基于演化算法和双向循环生成对抗网络的无监督词对齐方法。本文提出的无监督方法在基于生成对抗网络的模型基础上,增加了循环一致性的约束和双向联合训练的设计,减少了模型对语种之间同构性的依赖。此外,通过加入演化算法优化生成对抗网络的训练,缓解了模型在训练时的梯度消失和模式坍塌等问题,进一步提高了词对齐的准确率。在不同的低同构性语种对任务上的实验结果表明,本文提出的基于演化算法和双向循环生成对抗网络的无监督词对齐方法在多个语种对上均能取得较好的性能提升。(2)本文提出了一种基于生成近似词对和局部映射的半监督词对齐方法。本文通过生成对抗网络的框架生成近似词对,融合大量的无标注单语词向量数据和人工标注的双语词典共同训练双语空间之间的映射。同时,设计了一种基于局部映射的方法,在模型学习了全局映射之后,通过双语词典中对齐词之间的位置作为锚点,对不同局部的词进行不同方向距离的映射。在不同的语种对任务上的实验结果表明,本文提出的基于生成近似词对和局部映射的半监督词对齐方法在多个低同构性语种对上均能取得较好的性能提升。
其他文献
近年来,在人工智能、虚拟现实等新技术浪潮下,虚拟数字人技术正在得到越来越多的关注。其中,人脸动作重定向是虚拟数字人技术的重要组成部分,目标是从普通RGB人脸图像中捕捉人脸的动作(人脸表情与头部旋转姿势),并重定向到其他定制化的3D角色人脸上。该任务通常被建模为三维人脸重建问题,通过估计3DMM人脸模型的身份、表情、头部旋转系数等进行三维人脸重建,然后将最终估计的表情系数和头部旋转系数重定向到目标3
学位
近年来,有机金属卤化物钙钛矿纳米阵列结构因其在偏振光、高分辨X射线成像、发光二极管和激光器中的潜在应用而备受关注。诚然,干法和湿法蚀刻以及气相沉积等工艺可以制备出有序的图案化纳米结构,但这些方法往往需要复杂的制备步骤以及高真空等苛刻的制备条件,这些都大大增加了其大规模应用的成本。相比之下,通过化学溶液法制备纳米阵列结构具有成本低、步骤简单、制备快速等优点。然而,由于对有关成核机理以及生长动力学的研
学位
随着软件规模和复杂度的不断提升,软件测试已经成为软件生命周期中最重要的阶段之一。跨项目缺陷预测(Cross-Project Defect Prediction,CPDP)方法允许在一个软件项目的初期阶段利用其他成熟软件的标记数据来进行缺陷预测,使得研究人员可以将通过成熟项目的标记数据训练出来的缺陷预测模型应用于其他新项目的预测任务。目前,大部分CPDP模型利用深度学习方法提取源代码中的语义特征信息
学位
为开发高扩散渗析性能的阴离子交换膜,本论文通过合理的分子设计来改性聚(联苯哌啶),使改性膜具有更优异的尺寸稳定性,酸通量以及离子选择性。1.通过联苯,N-甲基-4-哌啶酮,α,α,α-三氟丙酮进行共聚,制备了三种不同哌啶含量的聚合物PBPip XAc。随后经Menshutkin反应将长侧链季铵化试剂6-Br-MPD接枝到聚合物中,从而得到了一种侧链局部高密度形式的聚芳基哌啶阴离子交换膜QPBPip
学位
近年来,D-A(给体-受体)型共轭聚合物在聚合物太阳能电池(PSCs)领域具有广泛应用。聚合物太阳能电池可通过光生伏特效应将太阳能转化为电能,是一种理想的绿色能源转化装置。PSCs还具有易加工、材料来源广泛、质轻、柔性等特点,PSC的设计和开发为解决能源短缺、环境污染和温室效应提供了有效途径。此外,人们已经认识到,使用有毒溶剂造成的环境污染问题,会阻碍聚合物太阳能电池的商业化生产。由于D-A型共轭
学位
代码搜索是开发者利用自然语言查询语句搜索符合其描述的代码片段的行为,是现代软件开发过程中最频繁的活动之一,开发者通过搜索寻找可复用的高质量代码。因此,提高代码搜索的准确度可以有效提高软件的质量和开发的效率。开发者需要根据语句及其上下文理解代码,这使得开发者倾向于搜索实现一定功能的函数或代码片段。因此,代码搜索系统使用的函数表示应该表达函数的功能。据此,本文分析了现有方法存在的两个问题:函数功能表达
学位
肺纤维化与卵巢癌作为致命性的两种疾病,均需要特定的药物对其进行治疗。在传统治疗的过程中,药物的非特异性靶向所带来的全身性的毒副作用给患者的健康和临床治疗都带来了很大的困扰。因此,近年来,实现药物的精准靶向递送就成为了研究人员们关注的领域。其中,纳米复合材料的功能基元组成多样,在药物的靶向递送上存在着极大的应用潜能,引发了研究者们的广泛关注。四氧化三铁纳米粒子具有超顺磁性,可以在外部磁场的作用下聚集
学位
长期以来,颈椎病在中老年人群中具有较高的发病率。根据大量临床研究结果,人体的手部灵活性和颈部神经之间存在紧密联系。骨科医生在门诊过程中对患者进行颈椎病检查时,通常会让患者进行一次十秒手部抓握试验,并以此试验的结果,即患者在十秒内的抓握次数作为对病情的初步判断。到目前为止,十秒手部抓握试验的计数仍然由医生进行肉眼计数。当患者的手部抓握速度太快时,肉眼计数容易出现错漏,从而可能导致发生误诊的情况,影响
学位
在“绿水青山就是金山银山”的战略谋划下,对水环境漂浮物进行监测以防治水污染已是燃眉之急。面向复杂水场景图像的语义分割方法是水环境漂浮物监测的重要支撑技术,因为语义分割可以细致地描绘漂浮物并提供精确的物体信息。复杂水场景中漂浮物种类繁多,语义分割方法面临数据层面和算法层面的挑战。在数据层面,现有水场景语义分割数据集多半仅顾及单一类别的漂浮物,导致基于现有数据集训练的语义分割方法面向多种漂浮物时既容易
学位
k-mer频次计数任务是生物信息学分析工作流的基础环节,可为表征生物序列上下文提供可用材料,应用场景包括序列组装、序列比对、序列修正、突变位点检测、公共祖先发现、模体发现、基因关联分析等等。随着测序数据规模不断扩大,k-mer频次计数算法所需的存储和时间开销已成为不可回避的问题。本文分别研究共享内存环境和天河超算环境下的大规模k-mer频次计数问题,主要内容如下:(1)针对共享内存计算环境,提出一
学位