基于语种相似性挖掘的神经机器翻译语料库扩充方法

来源 :计算机应用 | 被引量 : 0次 | 上传用户:sgrsrg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对低资源语言机器翻译任务上一直存在的标注数据资源匮乏问题,提出了基于语种相似性挖掘的神经机器翻译语料库扩充方法.首先,将维吾尔语和哈萨克语作为相似语言对并将其语料进行混合;然后,对混合后的语料分别进行字节对编码(BPE)处理、音节切分处理以及基于音节切分的BPE处理,从而深度挖掘哈语和维语的相似性;最后,引入“开始-中部-结束(BME)”序列标注方法对语料中已切分完成的音节进行标注,以消除音节输入所带来的一些歧义.在CWMT2015维汉平行语料和哈汉平行语料上的实验结果表明,所提方法相较于不进行特殊语料处理以及BPE语料处理训练所得普通模型在维吾尔语-汉语翻译上的双语评估替补(BLEU)值分别提升了9.66、4.55,在哈萨克语-汉语翻译上的BLEU值分别提升了9.44、4.36.所提方案实现了维语和哈语到汉语的跨语言神经机器翻译,提升了维吾尔语-汉语和哈萨克语-汉语机器翻译的翻译质量,可应用于维语和哈语的语料处理.
其他文献
《计算机体系结构(第2 版)》(ISBN:9787302406372)荣获首届全国教材建设奖全国优秀教材(高等教育类)一等奖,第1 版和第2 版先后被评为普通高等教育“十一五”国家级规划教材和“十二五”普通高等教育本科国家级规划教材.
期刊
多视图子空间聚类方法因其可以揭示数据内在的低维结构而被广泛关注,但大多数现有的多视图子空间聚类算法直接将多个来自原始数据的充满噪声的相似度矩阵进行融合,并且通常是在得到一致的多视图表示之后再使用K均值算法聚类得到最终的结果,这种将表示的学习过程和后续的聚类过程分离的两阶段算法会导致无法得到最优的聚类结果.为了解决这些问题,提出一种单步划分融合多视图子空间聚类算法.该算法不是直接融合具有噪声和冗余信息的相似度矩阵,而是从相似度矩阵中提取出更具有判别性信息的划分级信息进行融合.提出一个新的框架,将表示学习、多
函数型聚类分析是探索函数型数据的重要工具,现有的函数型聚类方法大多属于无监督学习,没有考虑到数据的标签信息.针对目前函数型聚类方法的无监督特性,以及函数型数据通常具备的非负性特征,提出了一种非负半监督函数型聚类方法(SSNFC),用于处理带有少量标签信息的非负函数型数据的聚类问题.首先,通过引入约束非负矩阵分解(CNMF)技术,将标签信息融入函数型聚类过程中,构建了曲线拟合、非负约束和函数型聚类相统一的一步法模型.其次,给出了模型的迭代更新求解算法,证明了算法的局部收敛性,并分析了算法的时间复杂度.最后,
针对基于参考向量的高维多目标进化算法中随机选择父代个体会降低算法的收敛速度,以及部分参考向量分配个体的缺失会减弱种群多样性的问题,提出了一种基于分解的高维多目标改进优化算法(IMaOEA/D).首先,在分解策略框架下,当一个参考向量至少分配了2个个体时,对该参考向量分配的个体根据其到理想点的距离选择父代个体来繁殖子代,从而提高搜索速度.然后,针对未能分配到至少2个个体的参考向量,则从所有个体中选择沿该参考向量和理想点距离最小的点,使得该参考向量至少有2个个体与其相关.同时,确保环境选择后每个参考向量有一个
视觉问答是一项计算机视觉与自然语言处理相结合的任务,需要理解图中的场景,特别是不同目标对象之间的交互关系.近年来,关于视觉问答的研究有了很大的进展,但传统方法采用整体特征表示,很大程度上忽略了所给图像的结构,无法有效锁定场景中的目标.而图网络依靠高层次图像表示,能捕获语义和空间关系,但以往利用图网络的视觉问答方法忽略了关系与问题间的关联在解答过程中的作用.据此提出基于同等注意力图网络的视觉问答模型EAGN,通过同等注意力机制赋予关系边与目标节点同等的重要性,两者结合使回答问题的依据更加充分.通过实验得出,
针对标准人工蜂群(ABC)算法存在开发能力弱、收敛速度慢的缺点,提出了一种基于多种群组合策略的ABC算法.首先,将异维协同和多维匹配的更新机制引入搜索方程;然后,针对雇佣蜂和跟随蜂分别设计了两种组合策略,组合策略是由侧重于广度探索和深度开发的两个子策略构成.在跟随蜂阶段,将种群划分为自由子集和非自由子集,并使属于不同子集的个体采用不同的子策略,从而平衡算法的探索与开发能力.通过15个标准测试函数将所提改进ABC算法与标准ABC算法和其他3种改进ABC算法进行仿真对比,结果表明所提算法在低维和高维问题中都具
针对多分类支持向量机(MSVM)对噪声较强的敏感性、对重采样数据的不稳定性以及泛化性能低等缺陷,将pinball损失函数、样本模糊隶属度以及样本结构信息引入到简化的多分类支持向量机(SimMSVM)算法中,构建了基于pinball损失的结构模糊多分类支持向量机算法Pin-SFSimMSVM.在人工数据集、UCI数据集以及添加不同比例噪声的UCI数据集上的实验结果显示:所提出的Pin-SFSimMSVM算法与SimMSVM算法相比,准确率均提升了0~5.25个百分点;所提出的算法不仅具有避免多类数据存在不可
从姿态信息采集、姿态情绪特征提取、姿态情绪识别算法和姿态情绪数据库几个方面对国内外姿态情绪识别研究进行了全面的总结,分析了姿态情绪识别研究存在的难点和挑战,提出姿态情绪识别的关键是姿态情绪特征提取和姿态情绪数据库的建立,最后探讨了姿态情绪识别研究的发展方向.
随着社交网络的发展,对其包含的海量文本进行情感分析具有重要的社会价值.不同于普通文本分类,短文本情感分类需要挖掘隐含的情感语义特征,具有极大的难度和挑战性.为了能在更高的层次上得到短文本的情感语义特征,提出了一种多头注意力记忆网络(MAMN)用于短文本情感分类.首先,利用n元语法特征信息和有序神经元长短时记忆(ON-LSTM)网络对多头自注意力机制进行改进,以对文本上下文内联关系进行充分提取,使模型可以获得更丰富的文本特征信息.然后,利用多头注意力机制对多跳记忆网络的结构进行优化,使得在拓展模型深度的同时
微博作为人们获取和传播新闻事件的主要平台,隐藏着丰富的事件信息.从微博数据中抽取故事线能为用户提供一种直观的方式来准确理解事件演化,然而微博数据稀疏和上下文缺乏的特点为故事线抽取带来了挑战.因此,通过两个连续的任务从微博数据中自动抽取故事线:1)基于微博传播影响力对事件进行建模,并提取出首要事件;2)基于事件特征建立异构事件图,提出事件图卷积网络(E-GCN)模型来提升对事件间隐式关系的学习能力,从而实现事件的故事分支预测并链接事件.在真实数据集上从故事分支和故事线两个角度进行评测,结果表明所提方法在故事