融合词簇约束的汉越跨语言词嵌入

来源 :计算机工程 | 被引量 : 0次 | 上传用户:czq8068
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对传统跨语言词嵌入方法在汉越等差异较大的低资源语言上对齐效果不佳的问题,提出一种融合词簇对齐约束的汉越跨语言词嵌入方法。首先通过独立的单语语料训练获取汉越单语词嵌入;然后使用近义词、同类词和同主题词三种不同类型的关联关系充分挖掘双语词典中的词簇对齐信息融入映射矩阵的训练过程中,使映射矩阵进一步学习到不同语言相近词间具有的一些共性特征及映射关系;接着通过跨语言映射将两种语言的单语词嵌入映射至同一共享空间中对齐,令具有相同含义的汉语与越南语词嵌入在空间中彼此接近;最后利用余弦相似度为空间中每一个未经标注的汉语单词查找对应的越南语翻译构建汉越对齐词对,实现跨语言词嵌入。实验结果表明,与传统有监督及无监督的跨语言词嵌入方法Multi_w2v、Orthogonal、VecMap、Muse相比,该方法能有效提升映射矩阵在非标注词上的泛化性,改善汉越低资源场景下模型对齐效果不佳的问题,其在汉越双语词典归纳任务@1和@5上的对齐准确率相比最好基线模型提升了2.2%。
其他文献
在医院的日常经营管理工作当中,绩效管理作为医院工作的重点内容,其中的成本核算属于绩效管理中不可缺少的重要存在,有效的成本核算方法可以大幅度帮助医院自身更好地发展,加强医院在管理上的水平。随着国家全新医疗改革政策的提出,相对传统的医院成本核算方法已经不能够达到现在情况下医院成本核算的要求了,所以,用先进的管理思想手段来对医院成本核算水平进行提高是非常有必要的。尤其是现在医疗竞争的市场如此激烈,把绩效
对厚度为3 mm、喷射成形热挤压工艺制备的退火态7055铝合金进行填丝TIG焊试验,通过金相显微镜观察焊接接头的微观组织,利用拉伸及显微硬度试验测试焊接接头的力学性能,利用扫描电镜观察断口形貌。结果表明,利用ER5356焊丝进行TIG焊能够获得成形良好的7055铝合金焊接接头;焊缝组织为粗大的树枝晶,熔合区组织为细等轴晶,热影响区(HAZ)宽达22 mm,离焊缝近的HAZ晶粒为扁长层状,其组织长大
为了减小或避免长大深埋隧洞TBM在施工过程中的岩爆灾害,采用小导洞开挖技术对隧洞内围岩应力进行超前释放,通过微震监测设备对应力释放效果进行监测。结果表明:小导洞开挖可以有效释放隧洞内应力,降低岩爆发生的强度和频率。在此基础上,研究不同单响药量及小导洞断面尺寸对应力释放的影响,结果显示:单响药量基本与微震事件能量(J)成正比,即一定范围内,单响药量越大,应力释放效果越好;大断面尺寸更有利于应力释放。
传统基坑支护混凝土面层采用水泥、砂石、水为原料。水泥价格高,生产过程中消耗大量的能源和资源。本文采用价格低廉的全固废胶凝材料(原状电石渣、矿粉)代替水泥,进行基坑支护混合土面层施工试验。电石渣、矿粉、砂、细石、水制成的混合土的施工和易性与水泥混凝土类似,可以采用干法进行喷射混合土面层施工;现场取芯7d天和28天的抗压强度试验结果表明,相同原料配比条件下,电石渣:矿粉按照1:1配比等量代替水泥制成的
目前,基于我国现代社会经济发展背景下,各个行业也因此获得了良好的发展前景,但是,在经济快速发展的同时,也逐渐带来了一些明显的生态环境问题,特别是对于我国西北部地区而言,目前水土流失现象比较严重,会出现山体滑坡等灾害,并且发生的频率比较高。针对这种现象,需要加强相应的生态环境保护工作,通过提升生态环境保护建设水平,来对水土达到一定的维护作用。文章主要针对生态环境保护对水土保持的影响进行了深入分析,并
节肢动物种类的快速识别和鉴定是开展生物多样性调查的基础。传统的分类方法主要依赖人工观察标本的外部形态特征,逐一对照检索表,通过每个特征的对比来完成对种类的鉴定,该鉴定方法繁琐、耗时,调查效率低。近年来,随着人工智能技术的快速发展,利用图像识别来完成节肢动物种类识别和鉴定的研究愈来愈受到关注。本文以稻田常见蜘蛛为对象,对形态特征的图片数据库构建、AutoML模型识别训练、以及基于微信小程序的蜘蛛种类
现有关于外卖配送路径优化的研究中,大多数采用的路径生成方式是商家节点和顾客节点根据订单号成对插入。而在实际配送中,取送交叉的配送方式最为常用。目前暂无研究考虑外卖配送中骑手中途接单后的配送路径优化。因此,本文针对取送交叉和中途接单对外卖配送路径优化问题深入研究。首先,以时间惩罚成本和运输成本作为目标函数,将相同商家不同顾客和相同顾客不同商家的订单进行拆分,并考虑了骑手载重约束、时间窗约束、中途接单
文章首先对于立德树人背景作出阐述说明,随后深入剖析研究性学习共同体的内涵及意义,最后提出在立德树人视阈下高中历史研究性学习共同体的构建策略,以求助力高中历史教学工作的高质量开展。
多联产是一种可以合理、高效、绿色利用资源的生产技术,是我国实现“双碳”目标的可行性方案之一。分析了“双碳”目标给多联产技术带来的机遇与挑战,以及在“双碳”目标下多联产技术的发展方向。多联产技术应当以开“源”节“流”为发展方向,寻求更加高效、绿色、清洁的最佳多联产系统耦合方式。