英中可比语料库中多词表达自动提取与对齐

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户:gongbin1990
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多词表达(MwE)不仅用来提高当前机器翻译系统质量,而且也用于跨语言检索和数据挖掘等其他自然语言处理领域。为此,提出了基于语义模板与基于统计工具相结合的方法从三元纽可比语料库中自动提取本族英语MWE。采用基于词表和分布方法计算词语间的相似度,扩大MwE覆盖范围。利用GIzA++对齐算法提取对译的中文MWE,依据统计方法计算互译概率信息,根据概率大小,选择最佳英汉MWE互译对。实验结果表明上述方法可以有效提高MWE提取和对齐的准确率。
其他文献
随着数字技术、光通信技术、软件技术等的发展和统一的TGP/IP协议的广泛应用.业界呈现出技术融合、市场融合,业务融合的大趋势。各种原先专门为某一特定业务而设计建设的网络之
提出了一种面向分级B帧编码的分级量化技术,通过发掘同一个Gop中B帧之间的时域相关性,按金字塔顺序在级别不同的B帧之间相应分配权重不同的量化步长,达到编码优化的目的。仿真实验证明,所提出的分级量化技术比传统的使用同一个量化步长因子的量化机制在保证相同重构图像质量的前提下,能较大幅度的节省码流。
各位领导、各位专家、同志们、朋友们:上午好!今天,我省遥感应用协会正式成立了,这是我省遥感应用领域的一件大事,也是我省航天技术应用领域的一件大事。在此,我谨代表河北省国防
明基收购西门子手机并可能推出联合品牌的消息传出后,业界很多人猜测是又多了一个"索爱"还是一个"TCL—阿尔卡特"?有的业界专家认为.明基一直以工业设计和品牌行销见长,将索
三维物体的识别关键问题是找到能准确描述三维形状特征的描述子。利用球面调和级数的空间正交分解特性,计算三维颅骨的空间分解特征向量,继而构造三维特征描述子。提出了判断特
音乐是人们生活中不可或缺的东西,工作之余、学习之暇,可以说每时每刻,我们都能接触到音乐。正因为音乐的重要性,MP3得以称霸市场,音乐也让手机厂商找到了新的卖点。现在几乎
针对语音情感识别问题,提出一种采用决策模板的多分类器融合方法,利用不同类型的声学特征子集来构造子分类器。不同的子集能充分提高各子分类器之间的"多样性"指标,这是多分类
中国国家地震局1978年对中国地震区、带作了三级划分。其中一、二级均为地震区,分别命名为“区”和“亚区”,三级称为“带”。我国的地震活动主要分布在10个地区的30条地震带上
利用改进的主成分分析(Principal Component Analysis,PCA)方法,通过研究不同的车辆特征(如全局特征、各种局部特征)对静态图像车辆识别效果的影响,提出了一种新的静态图像车辆识别算法。该算法可有效降低光照和背景噪声对识别的影响,实现对存在部分遮挡的车辆检测。实验结果表明,该算法具有良好的鲁棒性和车辆识别率。