论文部分内容阅读
在自然语言处理领域,双语平行语料库的重要性日益加强,其研究主要集中在构建、对齐和标注等方面,在机器翻译、词义消歧以及跨语言信息检索等研究领域中具有重要的实际研究意义。 双语平行语料库有多种组织形式,如篇章一级、句子一级、词汇一级等,其中篇章一级最容易获得,但用处不大。从篇章一级的双语文本中自动获得句子一级的双语语料库是双语句子对齐的过程,也是进一步找到词语间对应关系和获得其他翻译知识的基础。本文对双语句子自动对齐的相关技术理论进行了深入细致的分析研究,针对藏汉语言的特殊性、翻译标准的不一致性和藏文资源的不足等因素,把藏汉句子对齐问题转化为其实词之间的匹配过程。选择了适合于藏汉语言特点的句子对齐算法,并实现了藏汉句子自动对齐系统。 本论文的研究主要包括以下几点: 1、藏文文本分词。首先针对目前藏文编码和书写格式的杂乱无章,对文本的编码、格式进行统一化、规范化自动处理,使得系统能够处理更多的藏文文本;其次,在已有的研究基础上,充分利用藏文语法信息,详细设计并实现了藏文自动分词系统,经测试表明,分词准确率可达到96.2%,有利于句子对齐研究中获得相关词汇信息。 2、藏汉文本预处理。为了句子对齐问题简化为其实词之间的匹配过程,首先对藏汉句子的语法结构特点进行了研究和探索,其次,对两种句子相互对应的规律进行了归纳与总结,最后,对藏汉文本进行分句、分类和提取固定词汇(实词)的预处理。经实验表明,藏文文本分句的准确率达到94.2%,句子分类的准确率达到88.05%,句中提取词汇的准确率达到93.8%;汉文句子分类的准确率达到90.1%,句中提取词汇的准确率达到97.1%。为藏汉句子自动对齐研究提供了技术保障。 3、句子对齐。在文本预处理的基础上,首先对藏汉句子进行长度相似度和词汇相似度计算,并以两者之和(评价函数值)为藏汉句子的相似度;其次,在动态规划框架下,每两个句子按8种对齐模式计算其评价值,最后寻求最优对齐路径,该路径上的句对为最终结果。从而完成了句子对齐的整体过程。经实验表明,对齐准确率可达到90.06%。在藏文自然语言处理研究领域具有一定的应用价值。