基于词向量的双语句子相似度研究

来源 :数字化用户 | 被引量 : 0次 | 上传用户:chenyuanliang520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
双语句子对齐是自然语言处理中的一项基础性任务,该任务本身可以为统计机器翻译提供基础资源,同时,该任务所依赖的相似度计算技术也是传统统计机器翻译方法中的重要环节.以谷歌翻译为媒介,本文将中文-英文双语对齐语料转化为英文-英文对齐语料.在此基础上,本文尝试将词向量作为计算句子相似度的基础,验证词向量在双语对齐领域的作用.在限定了对齐句子上下范围的基础上,本文得到了82%准确率,初步实现了实验目的.本文结果表明,词向量可以作为双语相似度计算的基础,但对词向量本身更加细致的应用,以及应用更多的规则来提升其效果是实现词向量在双语对齐中作用的关键.
其他文献
提出了基于单相似系统生成的软/硬件协同设计中的硬件优化技术.介绍了一种基于子图匹配软/硬件协同设计技术的大致框架,引进通用子图群合并算法,并着重讨论了基于节点压缩优
儿童正值生长发育期,其下颌骨骨折的治疗除考虑治疗本身的技术因素外,需更多地关注治疗方法对后期下颌骨生长发育以及牙颌面生长发育的影响.因此,儿童下颌骨骨折的治疗具有其自身特点和复杂性.这也是为什么在国际内固定研究学会(Association for the Study of Internal Fixation,ASIF或AO)坚固内固定理论不断进步和完善的当今,儿童下颌骨骨折的治疗方式并不统一的原因
期刊
WiFi是一个基于IEEE 802.11标准的无线局域网技术品牌,该品牌由Wi-Fi联盟所持有.通俗地说,WiFi就是人们常说的“上网热点”.Wi-Fi联盟的前身是1996年由朗讯发起成立的无线以
目的探讨儿童汉语阅读障碍(RD)的脑血流改变与阅读技能诊断测试(CRSDT)评分的关系.方法用非采血法SPECT显像测定25例RD患儿和20例正常对照者全脑血流量(CBF)、左右脑血流量及局部脑血流量(rCBF).CRSDT测得阅读技能总粗分(TRS),并分析TRS与CBF间的关系.结果患儿组CBF为(38.87±3.77) mL·100 g-1·min-1,明显低于对照组[(43.65±2.64
从软故障的产生机制出发 ,研究了软故障的作用模式 .为了计算软故障的关键面积 ,将互连线分为接触区和导电通道两部分来处理 ,并推导出了总的计算公式 .最后通过对一个 4× 4
目的 探讨新生儿缺氧缺血性脑病SPECT显像的特点。方法 对 30例符合新生儿缺氧缺血性脑病诊断和分度标准的患儿和 10例正常新生儿进行SPECT脑血流灌注断层显像 ,并与CT、MR