基于阿拉伯数字中介的汉蒙数词对齐策略

来源 :第二届全国少数民族青年自然语言处理学术研讨会 | 被引量 : 0次 | 上传用户:longfushen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在汉蒙词对齐任务的背景下,我们针对数词这一特殊的词类,提出了以阿拉伯数字作为转换中介的对齐方法。其基本思想是,将汉蒙文本中的数词分别转换为阿拉伯数字后再决定它们之间是否存在对应关系,即是否可以成为一个对齐连接。转换过程建立在汉蒙基本数词与阿拉伯数字信息对应表——numtable的基础上。numtable中设置了“标志位”信息,用以标明基本数词是否为“10”的倍数。数词到阿拉伯数字的转换模块依据numtable中的“标志位”信息,经过推理,将汉蒙数词分别转换为相应的阿拉伯数字。我们在实现转换时,不仅考虑了汉语数词和蒙古语数词各自的特征,而且以“词对齐”作为目标,对每一种语言内部不同类型的数词分别采取了不同的转换策略。
其他文献
本文描述了一种基于短语统计翻译的汉维机器翻译系统。首先使用汉维语料进行训练,得到语言模型和翻译模型;再利用训练好的模型对源语句进行解码,以得到最佳的翻译语句。解码的核
针对最小二乘支持向量机在语音数据大样本输入下的局限性,提出了一种基于GMM特征变换和模糊LS-SVM的学习算法,结合高斯混合模型在拟合数据分布方面和最小二乘支持向量机在分
本文依据班智达藏语料自动分词技术,设计出班智达藏文查询接口及信息西抽取总体功能结构,较详细地讨论了班智达藏文藏词性规范、词典库的数据结构和信息抽取的文法规则,并给出了
铍是原子能、航空、电子、光学仪器和特种陶瓷等工业常用的一种轻金属 ,一般用量较多的铍化物有氧化铍、氟化铍、氢氧化铍、硫酸铍、氯化铍等。铍及其盐类的毒性是较大的 ,尤
1979~1987年,我们收治战伤410冽,给予再次清创、抗感染、取异物、截肢、植皮、植骨、软组织缺损修复和复位固定等处理,现作回顾性总结如下。临床资料本组均为男性青年,平均年龄21.3
在选择性氧化试剂作用下,甲醇被氧化至甲醛,乙醇不能被氧化至乙醛。以品红亚硫酸作显色剂检测甲醛。该方法最低检测含量为100mg/L(国家食品卫生标准规定:谷物类和薯干类饮用
在维吾尔文和数学公式的笔式输入识别中,不能准确的对符号进行切分和处理是造成识别错误和系统运行效率低的重要原因之一,本文通过对符号切分问题的分析,提出了一种有效的符号切
维吾尔语是黏着性语言,利用丰富的词缀可以用同样的词干产生超大词汇,给维吾尔语语音识别的研究工作带来了很大困难。本文结合维吾尔语自身特点,建立了维吾尔语连续语
会议
为了提高汉民翻译系统的翻译准确率,本文提出了在短语基础上结合模板的方法自动抽取模板结构;解码时,首先进行模板匹配,套用模板结构进行翻译,然后再按照Beam Search搜索算法进行