论文部分内容阅读
自然语言处理的许多研究都是从大规模的语料库提取语言知识的规律,然后利用这些规律来指导自然语言处理的过程。双语语料库含有两种语言之间的互译对照信息,对于这两种语言之间的双语自然语言处理具有极其重要的研究和应用价值。双语语料库加工的关键技术之一是对齐,构建句子级别的对齐语料是构建语料库最基本的任务。
本文参考其他语言句子对齐的成熟的方法,针对藏文语言的特殊性,提出基于词典的汉藏句子自动对齐。藏文的分句问题是句子对齐首先要解决的问题,在统计实验的基础上对藏文分句问题进行了探索性研究,论文中结合句尾词、句首连词以及句子长度信息来判断藏文句子边界。根据藏文的数词组成规则,实现了对藏文文本中数字编号的切分。整理了对齐所用双语词典,并对其词语覆盖率进行了评价。汉藏句子对齐遇到的另一问题是汉语与藏文的分词粒度不同,采用在藏汉词典中进一步查词并在汉语句子中比对的方法,使正确句对的得分增加,从而提高对齐正确率。采用该方法准确率为81.11%。并对所使用算法进行了效率优化。本文的目的在于建立一个实用的汉藏双语句子对齐工具,并利用此工具对汉藏双语语料库进行处理。实验结果说明,本文的方法建立的汉藏双语句子对齐工具具有重要的实用价值和研究价值。