【摘 要】
:
神经机器翻译在资源丰富的语种上取得了良好的翻译效果,但是由于数据稀缺问题在汉语-越南语这类低资源语言对上的性能不佳。目前缓解该问题最有效的方法之一是利用现有资源生成伪平行数据。考虑到单语数据的可利用性,在回译方法的基础上,首先将利用大量单语数据训练的语言模型与神经机器翻译模型进行融合,然后在回译过程中通过语言模型融入语言特性,以此生成更规范质量更优的伪平行数据,最后将生成的语料添加到原始小规模语料
【机 构】
:
昆明理工大学信息工程与自动化学院,云南省人工智能重点实验室(昆明理工大学)
【基金项目】
:
国家自然科学基金资助项目(61672271,61732005,61761026,61762056,61866020),国家重点研发计划项目(2019QY1801)。
论文部分内容阅读
神经机器翻译在资源丰富的语种上取得了良好的翻译效果,但是由于数据稀缺问题在汉语-越南语这类低资源语言对上的性能不佳。目前缓解该问题最有效的方法之一是利用现有资源生成伪平行数据。考虑到单语数据的可利用性,在回译方法的基础上,首先将利用大量单语数据训练的语言模型与神经机器翻译模型进行融合,然后在回译过程中通过语言模型融入语言特性,以此生成更规范质量更优的伪平行数据,最后将生成的语料添加到原始小规模语料中训练最终翻译模型。在汉越翻译任务上的实验结果表明,与普通的回译方法相比,通过融合语言模型生成的伪平行数
其他文献
为提升短视频内容分发的精度,分析用户所属社交群体的兴趣倾向和对短视频内容的个性化需求,在基于主动推荐方式的短视频应用场景中,以视频内容提供商利润最大化为优化目标,设计了一种短视频内容分发策略。首先,基于联邦学习,利用用户群本地相册数据训练兴趣预测模型,提出用户群兴趣向量预测算法并得到用户群的兴趣向量表示;然后,以用户群的兴趣向量作为输入,基于组合置信上界(CUCB)算法实时设计相应的短视频内容分发
针对普适交通模式的场景感知功耗高、场景复杂的问题,提出一种融合残差网络(Res Net)和带孔卷积的交通模式识别算法。首先,使用快速傅里叶变换(FFT)将一维传感器数据转换为二维频谱图像;然后,使用主成分分析(PCA)算法对频谱图像降采样;最后,使用Res Net挖掘交通模式的局部特征,使用带孔卷积挖掘交通模式的全局特征,从而实现对八种交通模式进行识别。与决策树、随机森林、Alex Net等八种算
作为模型压缩的一个分支,网络剪枝算法通过移除深度神经网络中不重要的参数来降低计算消耗;然而,永久性的剪枝会导致模型容量不可逆转的损失。针对该问题,提出了一种联合动态剪枝的算法来综合分析卷积核与输入图像的特征。一方面,将部分卷积核置零,并允许其在训练过程中更新,直到网络收敛之后再永久性移除被置零的卷积核。另一方面,采样输入图像的特征,然后利用通道重要性预测网络对这些特征进行分析,从而确定卷积运算中可
针对多步交通流量预测任务中时间空间特征提取效果不佳和预测未来时间交通流量精度低的问题,提出一种基于长短时记忆(LSTM)网络、卷积残差网络和注意力机制的融合模型。首先,利用一种基于编解码器的架构,通过在编解码器中加入LSTM网络来挖掘不同尺度的时间域特征;其次,构建基于注意力机制挤压激励(SE)模块的卷积残差网络嵌入到LSTM网络结构中,从而挖掘交通流量数据中的空间域特征;最后,将编码器中获得的隐
针对在受到部分遮挡或角度过大无法定位面部关键特征点的情况下,传统的头部姿态估计方法的准确率低或无法进行头部姿态估计的问题,提出了优化Le Net-5网络的多角度头部姿态估计方法。首先,通过对卷积神经网络(CNN)的深度、卷积核大小等进行优化来更好地捕捉图像的全局特征;然后,改进池化层,用卷积操作代替池化操作来增强网络的非线性能力;最后,引入Ada Bound优化器,并利用Softmax回归模型做姿
交通模式识别是用户行为识别中的一个重要分支,其目的是对用户所处的交通模式进行准确判断。针对现代智慧城市交通系统对在移动设备环境下精准感知用户交通模式的需求,提出了一种基于残差时域注意力神经网络的交通模式识别算法。首先,通过具有较强局部特征提取能力的残差网络提取传感器时序中的局部特征;然后,采用基于通道的注意力机制对不同传感器特征进行重校准,并针对不同传感器的数据异构性进行注意力重校准;最后,利用具
针对集群负载动态变化引发容器频繁迁移的问题,提出了一种基于资源预留的容器部署方法。首先,设计了基于马尔可夫链模型的单容器资源需求动态变化描述机制,用于刻画单容器的资源需求情况;其次,基于单容器马尔可夫链模型分析了多容器资源动态变化情况,以刻画容器资源需求态势;随后,基于多容器马尔可夫链提出了面向动态负载的容器部署与资源预留算法;最后,基于容器资源需求特征的分析对所提算法的性能进行了优化。基于国产软
针对多人脸场景下快速准确提取人脸内容的问题,提出了基于肤色学习的多人脸前景抽取方法。首先,给出了基于肤色学习的肤色前景分割模型。根据肤色专家的论文结果,采集了著名的SPA数据库的1 200张人脸进行肤色抽样,建立学习模型以得到每个人种在颜色空间的肤色参数,据此进行肤色图像分割,得到肤色前景。其次,利用人脸特征点学习算法,以常见人脸68个特征点为目标,结合肤色前景信息分割出人脸种子区域;并计算人脸中
云计算提高了大数据的使用、分析和管理的效率,但也给数据贡献者带来了对云服务的数据安全及隐私信息泄露的担忧。针对这个问题,结合了基于角色的访问控制、基于属性的访问控制方法并采用了下一代访问控制的体系结构,提出了云计算环境下的基于客体属性匹配的逆向混合访问控制方法。首先,数据贡献者设置共享文件访问权限级别,逆向规定了访问客体的最低权值;然后,采用变异系数加权的方法直接计算各属性的权值,取消了以属性为中
针对流媒体图像存在的信息安全隐患问题,提出了一种基于状态视图的流媒体图像信息置乱隐藏算法。首先,使用基于限邻域经验模式分解(NLEMD)的流媒体图像增强算法来增强流媒体图像以及凸显流媒体图像的细节信息,从而实现流媒体图像增强的效果;然后,通过基于状态视图的高效编码和解码算法对流媒体图像信息实施编码与解码,从而完成流媒体图像信息的置乱隐藏。实验结果表明,所提算法可有效、全面置乱隐藏植物类、文字类的流