融合主题及上下文特征的汉缅双语词汇抽取方法

来源 :小型微型计算机系统 | 被引量 : 0次 | 上传用户:sanmumuren
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
缅甸语属于低资源语言,网络中获取大规模的汉-缅双语词汇一定程度上可以缓解汉-缅机器翻译中面临句子级对齐语料匮乏的问题.为此,本文提出了一种融合主题及上下文特征的汉缅双语词汇抽取方法.首先利用LDA主题模型获取汉缅文档主题分布,并通过双语词向量表征将跨语言主题向量映射到共享的语义空间后抽取同一主题下相似度较高的词作为汉-缅双语候选词汇,然后基于BERT获取候选双语词汇相关上下文的词汇语义表征构建上下文向量,最后通过计算候选词的上下文向量的相似度对候选双语词汇进行加权得到质量更高的汉缅互译词汇.实验结果表明,相对于基于双语词典的方法和基于双语LDA+CBW的方法,本文提出的方法准确率上分别提升了11.07%和3.82%.
其他文献
  碳材料由于具备导电性、抗腐蚀、高稳定以及多孔结构等特性,一直都是电-Fenton体系阴极的首选材料。在电-Fenton体系中,氧气在阴极扩散还原成H2O2,其进一步与亚铁离子反
  垃圾渗滤液是一种高浓度有机废水,其水质水量不稳定且营养元素比例失调,同时含有大量难降解的萘、菲等非氯化芳香族化合物和氨氨等毒性物质,处理起来非常困难。本实验在水浴
  染料敏化太阳能电池(DSC)作为新一代太阳能电池得到了普遍的关注.据报道,采用FTO玻璃作为基底的DSC最高光电转化效率超过12%.与硅基太阳能电池相比,DSC更容易制备成可弯折
会议
  近年来通过构建异相结、异质结、p-n结等来提高光催化产氢产氧活性已经引起了学术界的广泛关注。在前期工作的基础上,本文设计并原位合成了镧和铬共掺杂的Sr2TiO4/SrTiO3
会议
1.学术历程 马克斯·普朗克1858年4月18日生于德国的一座小城基尔,普朗克的个性中蕴藏着文静的力量,性格中内含着腼腆的坚强,这使他“理所当然地赢得了教师和同学的喜爱”。
  利用钛金属基体与双氧水溶液之间的反应,可以在低温(80℃)开放体系下大面积制备纳米有序结构TiO2阵列薄膜.本实验中,采用该技术制备了4片直径100mm的纳米棒阵列,其相组成为
  TiO2的不同晶面光催化活性是目前的研究热点,但对单个晶面及其他们之间的相互作用的研究还不多见.最近的研究显示,{001}-{101}面共存的TiO2光催化活性高于{001}面优势暴
会议
  利用阳极氧化法在Ti基底表面制备的TiO2纳米管阵列因其独特的管状阵列结构在光催化降解污染物领域具有重要的应用前景。然而,在紫外光下,其光生电子与空穴的复合几率大、量
  随着人类化石燃料资源的日益枯竭,其他可再生能源(如:风能、地热能、潮汐能等)被考虑作为新的替代能源,但这些新能源资源严重分布不均,大范围内利用存在障碍。氢能具有来源广
核电站核岛反应堆厂房(安全壳)前期建造期间,设备和管道在焊接、打磨等施工活动中产生的烟尘含有大量有毒有害物质.主要为臭氧、一氧化碳、氮氧化物、氟化氢等,因其颗粒较小,