基于关联度的汉藏多词单元等价对抽取方法

来源 :第十一届全国计算语言学学术会议 | 被引量 : 0次 | 上传用户:Lisa2005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对为汉藏辅助翻译系统建立汉藏多词单元翻译词典这一任务,本文提出了CMWEPM模型.该模型首先依据关联度和结合度来确定汉语语料中多词单元的边界,然后根据词对齐信息分别抽取严格和约束汉藏多词单元等价对.CMWPM模型根据不同长度和频次对多词单元进行分类,并为不同类型设定不同阈值,最终提高了汉藏多词单元等价对的召回率,从而能够间接地提高汉藏辅助翻译系统的翻译质量.由于藏文形态变化丰富,并且汉语、藏语两种语言差异很大,下一步的工作将考虑加入形态学信息来优化词对齐的准确率,抽取出更为合理的汉藏多词单元等价对。为已经获取的等价对计算翻译概率,应用这些等价对进行翻译解码也是论文下一步工作之一。
其他文献
南希·罗宾斯有一个天赋,能用表面上看起来再寻常不过的物件创造出极不寻常的雕塑作品。许多年来,她一直在废物堆积场搜寻家用电器、床垫、飞机部件用以创作,最近则改成使用
淮北选煤厂入厂原煤性质变化大、配选方案多、换选频繁,重介精煤灰分控制难度大,在生产实践中,通过运用“信息库比对定位法”、“多节点产率计算法”、“离线结合目测精煤灰
论述了在从数字化矿山向智慧矿山建设的进化中,煤炭相关数据大量产生,针对数据治理研究了与其相关的关键技术.首先实现数据交换,打破“数据孤岛”,通过数据载体和数据传输通
国际民航组织于1983年成立了未来航行系统(FANS)特别委员会,对现行使用的陆基系统的局限性与未来星基系统进行了充分的研究与论证,并于1988年提出了以卫星技术为特征的通信、
介绍了煤矿井下用梭车的主要作用和整体结构,结合多年的维护经验,对梭车制动器的日常维护和故障排查进行了详细说明,并对梭车卷电缆装置的维护以及拆解安装过程进行了详细介
采用高压密闭微波消解仪预处理煤样,并用冷原子吸收分光光度法测定其中的汞.研究发现,选择硝酸-盐酸-氢氟酸-双氧水体系可将煤样有效消解,利用国家标准物质GBW(E)110108煤103
评价是信息检索研究长期关注的焦点,推动信息检索技术的进步.在简要分析Cranfield评价的优点和不足、基于检索日志进行检索评价的巨大潜力后,本文论述从搜索日志中获得可靠文
会议
利用计算流体力学的原理和方法,结合水力旋流器的分离机理,采用RSM湍流模型对水力旋流器湍流场进行数值模拟研究,揭示了尚不能用实验方法获得的湍流特征参数——湍动能和湍流
汉语缩略语在现代汉语中被广泛使用,其相关研究对于中文信息处理有着重要的意义.本文提出了一种从英汉平行语料库中自动提取汉语缩略语的方法.首先对双语语料进行词对齐训练,
通过热解将煤转化为一种清洁能源是煤清洁利用的一种重要途径.通过将煤与PVC在一定比例下热压成型后,制备成型半焦过程中PVC的添加对成型半焦性质的影响.采用扫描电镜、热值