融合单语语言模型的汉越伪平行语料生成

来源 :计算机应用 | 被引量 : 0次 | 上传用户：jzhiei

【摘要】

：

神经机器翻译在资源丰富的语种上取得了良好的翻译效果,但是由于数据稀缺问题在汉语-越南语这类低资源语言对上的性能不佳。目前缓解该问题最有效的方法之一是利用现有资源生成伪平行数据。考虑到单语数据的可利用性,在回译方法的基础上,首先将利用大量单语数据训练的语言模型与神经机器翻译模型进行融合,然后在回译过程中通过语言模型融入语言特性,以此生成更规范质量更优的伪平行数据,最后将生成的语料添加到原始小规模语料

【作者】

：

贾承勋赖华余正涛文永华于志强

【机构】

：

昆明理工大学信息工程与自动化学院,云南省人工智能重点实验室（昆明理工大学）

【出处】

：

计算机应用

【发表日期】

：

2021年06期

【关键词】

：

汉越神经机器翻译数据增强伪平行数据单语数据语言模型

【基金项目】

：

国家自然科学基金资助项目(61672271,61732005,61761026,61762056,61866020),国家重点研发计划项目(2019QY1801)。

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

其他文献

基于联邦学习的在线短视频内容分发策略

为提升短视频内容分发的精度,分析用户所属社交群体的兴趣倾向和对短视频内容的个性化需求,在基于主动推荐方式的短视频应用场景中,以视频内容提供商利润最大化为优化目标,设计了一种短视频内容分发策略。首先,基于联邦学习,利用用户群本地相册数据训练兴趣预测模型,提出用户群兴趣向量预测算法并得到用户群的兴趣向量表示;然后,以用户群的兴趣向量作为输入,基于组合置信上界(CUCB)算法实时设计相应的短视频内容分发

期刊

移动边缘计算内容分发联邦学习短视频用户群兴趣向量

基于多尺度特征提取的交通模式识别算法

针对普适交通模式的场景感知功耗高、场景复杂的问题,提出一种融合残差网络(Res Net)和带孔卷积的交通模式识别算法。首先,使用快速傅里叶变换(FFT)将一维传感器数据转换为二维频谱图像;然后,使用主成分分析(PCA)算法对频谱图像降采样;最后,使用Res Net挖掘交通模式的局部特征,使用带孔卷积挖掘交通模式的全局特征,从而实现对八种交通模式进行识别。与决策树、随机森林、Alex Net等八种算

期刊

行为识别交通模式识别残差网络带孔卷积低功耗

基于联合动态剪枝的深度神经网络压缩算法

作为模型压缩的一个分支,网络剪枝算法通过移除深度神经网络中不重要的参数来降低计算消耗;然而,永久性的剪枝会导致模型容量不可逆转的损失。针对该问题,提出了一种联合动态剪枝的算法来综合分析卷积核与输入图像的特征。一方面,将部分卷积核置零,并允许其在训练过程中更新,直到网络收敛之后再永久性移除被置零的卷积核。另一方面,采样输入图像的特征,然后利用通道重要性预测网络对这些特征进行分析,从而确定卷积运算中可

期刊

模型压缩网络剪枝动态剪枝深度神经网络卷积核

基于深度残差长短记忆网络交通流量预测算法

针对多步交通流量预测任务中时间空间特征提取效果不佳和预测未来时间交通流量精度低的问题,提出一种基于长短时记忆(LSTM)网络、卷积残差网络和注意力机制的融合模型。首先,利用一种基于编解码器的架构,通过在编解码器中加入LSTM网络来挖掘不同尺度的时间域特征;其次,构建基于注意力机制挤压激励(SE)模块的卷积残差网络嵌入到LSTM网络结构中,从而挖掘交通流量数据中的空间域特征;最后,将编码器中获得的隐

期刊

时空数据挖掘编解码器长短期记忆挤压-激励模块空间注意力

优化LeNet-5网络的多角度头部姿态估计方法

针对在受到部分遮挡或角度过大无法定位面部关键特征点的情况下,传统的头部姿态估计方法的准确率低或无法进行头部姿态估计的问题,提出了优化Le Net-5网络的多角度头部姿态估计方法。首先,通过对卷积神经网络(CNN)的深度、卷积核大小等进行优化来更好地捕捉图像的全局特征;然后,改进池化层,用卷积操作代替池化操作来增强网络的非线性能力;最后,引入Ada Bound优化器,并利用Softmax回归模型做姿

期刊

头部姿态估计面部关键特征点LeNet-5网络卷积神经网络姿态分类

基于残差时域注意力神经网络的交通模式识别算法

交通模式识别是用户行为识别中的一个重要分支,其目的是对用户所处的交通模式进行准确判断。针对现代智慧城市交通系统对在移动设备环境下精准感知用户交通模式的需求,提出了一种基于残差时域注意力神经网络的交通模式识别算法。首先,通过具有较强局部特征提取能力的残差网络提取传感器时序中的局部特征;然后,采用基于通道的注意力机制对不同传感器特征进行重校准,并针对不同传感器的数据异构性进行注意力重校准;最后,利用具

期刊

时域卷积网络交通模式识别残差网络注意力机制深度学习

面向动态负载的集群容器部署方法

针对集群负载动态变化引发容器频繁迁移的问题,提出了一种基于资源预留的容器部署方法。首先,设计了基于马尔可夫链模型的单容器资源需求动态变化描述机制,用于刻画单容器的资源需求情况;其次,基于单容器马尔可夫链模型分析了多容器资源动态变化情况,以刻画容器资源需求态势;随后,基于多容器马尔可夫链提出了面向动态负载的容器部署与资源预留算法;最后,基于容器资源需求特征的分析对所提算法的性能进行了优化。基于国产软

期刊

集群容器动态负载整合与迁移马尔可夫链

基于肤色学习的多人脸前景抽取方法

针对多人脸场景下快速准确提取人脸内容的问题,提出了基于肤色学习的多人脸前景抽取方法。首先,给出了基于肤色学习的肤色前景分割模型。根据肤色专家的论文结果,采集了著名的SPA数据库的1 200张人脸进行肤色抽样,建立学习模型以得到每个人种在颜色空间的肤色参数,据此进行肤色图像分割,得到肤色前景。其次,利用人脸特征点学习算法,以常见人脸68个特征点为目标,结合肤色前景信息分割出人脸种子区域;并计算人脸中

期刊

人脸前景肤色学习聚类分析人脸范围遗传机制

云计算环境基于客体属性匹配的逆向混合访问控制方案

云计算提高了大数据的使用、分析和管理的效率,但也给数据贡献者带来了对云服务的数据安全及隐私信息泄露的担忧。针对这个问题,结合了基于角色的访问控制、基于属性的访问控制方法并采用了下一代访问控制的体系结构,提出了云计算环境下的基于客体属性匹配的逆向混合访问控制方法。首先,数据贡献者设置共享文件访问权限级别,逆向规定了访问客体的最低权值;然后,采用变异系数加权的方法直接计算各属性的权值,取消了以属性为中

期刊

访问控制权值计算访问策略数据共享云计算

基于状态视图的流媒体图像信息置乱隐藏算法

针对流媒体图像存在的信息安全隐患问题,提出了一种基于状态视图的流媒体图像信息置乱隐藏算法。首先,使用基于限邻域经验模式分解(NLEMD)的流媒体图像增强算法来增强流媒体图像以及凸显流媒体图像的细节信息,从而实现流媒体图像增强的效果;然后,通过基于状态视图的高效编码和解码算法对流媒体图像信息实施编码与解码,从而完成流媒体图像信息的置乱隐藏。实验结果表明,所提算法可有效、全面置乱隐藏植物类、文字类的流

期刊

状态视图流媒体图像信息置乱隐藏高效编码和解码

融合单语语言模型的汉越伪平行语料生成

与本文相关的学术论文