汉蒙词语对齐及相关技术研究

来源 :内蒙古大学 | 被引量 : 18次 | 上传用户:p_123_456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
汉蒙平行语料库是包含汉语和蒙古语两种语言互译文本的语料库,它是蒙古文信息处理数据资源的重要组成部分。汉蒙平行语料库在语言的多个层面上呈现汉语和蒙古语的互译对照信息,能够为汉蒙机器翻译或者其他与汉蒙双语相关的信息处理提供强有力的支持。汉蒙平行语料库的建设中,最关键的技术是“对齐”。所谓对齐,就是从源文和译文文本中找出互为翻译的片断。由于互译片段的粒度不尽相同,因此有篇章、段落、句子、短语以及词等不同级别的对齐。许多与双语处理相关的应用,如统计机器翻译、基于实例的机器翻译、词义消歧、双语词典编纂等,都要求以经过词语对齐的平行语料库作为依托。目前,汉蒙平行语料库的大部分数据是通过手工录入的方式收集起来的。录入过程中,我们按照“句对”的格式对语料进行了整理。因此,至少现阶段,汉蒙平行语料库的加工不涉及篇章、段落或者句子级别的对齐任务。如何在汉蒙句对上,进一步寻找汉蒙词语之间的对应关系,是本篇论文的重点研究内容。现在虽然有词语对齐开源软件(如,GIZA++)可供使用,但这一类基于纯统计学方法的工具通常只有在超大规模语料库上才能取得令人满意的效果。对于像汉蒙平行语料库这样规模偏小的资源,我们主张使用“基于知识”的方法来实现词语对齐。本文在借鉴和吸收前人研究成果的基础上,结合蒙古文信息处理的资源现状,提出了一种知识密集型(Knowledge Intensive)的汉蒙词语对齐方法。该方法的主旨是以“基于双语词典的Greedy算法”作为基本框架,通过在此框架内引入多种外部知识和信息,如蒙古语同义词知识、蒙古语词法知识、蒙古语连续多词单元的标注信息、汉蒙数词到阿拉伯数字的转换信息以及汉语介词与蒙古语“格”的对应规则等,逐步提高对齐的召回率和准确率。就这些知识(或信息)的获取方法及它们在汉蒙词语对齐中的作用,本文的研究包括如下几个方面:(1)提出利用蒙古语《类语辞典》中的同义词知识对汉蒙双语词典进行扩充,为汉蒙词语对齐提供更多的翻译选项。(2)利用一个基于词典和规则的方法对蒙古语文本进行词法分析和标注,为汉蒙词语的相似度计算提供蒙古语词干信息。(3)提出一种基于同现频率和词类信息的蒙古语连续多词单元的抽取方法,结合语言学家的内省判断构造出一个有效的词表,并以该词表作为依据,对蒙古语文本中的连续多词单元进行捆绑标注。这一标注信息能够帮助汉蒙词语对齐系统返回一部分“l:n”模式的对齐连接。(4)提出一种将汉蒙数词转换成阿拉伯数字的方法,目的是以阿拉伯数字作为中介,得到汉蒙数词的对齐。(5)基于汉语介词和蒙古语“格”之间的对应规律,提出一种局部启发式算法,以实现汉语“介词+名词(或代词)”结构与蒙古语格变化词形之间的“2:1”模式的对齐。另外,我们通过对大量汉蒙词语人工对齐结果及相关笔记进行比较和研究,发现人工词语对齐中存在相当程度的“主观性”因素。本文以当前汉蒙词语对齐系统的评价为主要目标,提出并制定了“汉蒙词语人工对齐规范”,为建立“标准对齐连接”提供操作细则。实验部分,采用召回率、正确率和F值作为评价方法,在三类测试集(日常用语、政府文献、小说)上进行了一系列的实验和考察,总结出各种语言学知识对词语对齐的影响。实验结果表明,通过在基于词典和dislocation的基本框架内综合引用多种语言学知识,系统能够在“汉蒙日常用语”测试集上取得相对最好的成绩,召回率为0.592,正确率为0.814。
其他文献
《中原雅音》是一部記錄北方時音的重要韻書,惜已亡佚。幸得明代章黼《韻學集成》中保存了大量有關《雅音》的珍貴資料,才使得我們得以研究並“復原”它的部分原貌。該資料一經
上海手语中的方向性动词包括空间方向动词、予夺方向动词和施受方向动词三种类型,空间方向动词具有空间位移或非位移方向义并以词形或词形变化来表示语义上的空间方向,予夺方
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
本论文讨论福多的心语假说,the Language of Thought Hypothesis,也叫Mentalese Hypothesis。概括地说,它假设了一种内部语言的存在,这种内部语言由具有句法和语义的心理表征
本文封于鬯《春秋》四傳《校書》的訓詁進行了全面、深入的研究。從解释字詞、分析句讀、探討語法、說明修辭、發凡起例、考訂典制、補明史實、校勘文本共八個方面考察了于氏
目的本研究拟将美洲大蠊提取物制备成水包油(O/W)型软膏剂并对其进行初步质量研究。方法以外观均一性、粘稠性、离心稳定性、耐热性、耐寒性的综合评分为指标,通过正交设计实
1病例介绍 患者,男,61岁,因外伤入住我院急诊科,经询问病史,该患者就诊前未使用过其它药物,无药物过敏史。给予低分子右旋糖酐氨基酸注射液(长富尔灵,上海长征富民药业有限公司,批号04
在化石能源日益枯竭的背景下,可再生能源特别是太阳能的利用越来越显示其重要性,由此太阳能的开发利用方式越来越多,能量转换效率不断攀升,使用成本不断下降.其中利用太阳能