论文部分内容阅读
在漫长的历史长河中,古汉语书写的典籍汗牛充栋。近年来,统计机器翻译技术得到了很大发展。Moses等开源的翻译工具只需要双语平行句对即可训练出翻译系统。同时,其他自然语言处理技术的发展更是激励着人们解决现实的人工智能问题。本课题的目的在于探索文言文翻译及阅读理解答题的关键技术。为了解决这个任务,我们的研究包含以下几个方面。(1)古汉语现代汉语平行语料库的获取和加工。本文利用互联网上存在的古汉语现代汉语平行网页获取古汉语现代汉语平行语料库。本文将平行语料的获取分为两个阶段,第一个阶段是获取网页正文,第二个阶段是句子对齐。通过对基于DOM树的文本密度的方法进行改进,我们提出基于DOM树的标点密度的方法。在获取古汉语现代汉语网页正文时,我们的方法F值得到了一定的提升。在句子对齐时,我们引入句子长度、匹配模式、同源率,使用对数线性模型对句子得分进行建模。通过不同的框架,我们引入了10个同源率。和基于长度的句子对齐方法相比,我们的方法使结果得到了较大的提升。(2)基于Moses的古汉语和现代汉语翻译系统的优化。本文在获取了古汉语现代汉语平行句对后,对翻译系统的优化进行研究。我们使用Moses从语言模型和翻译模型两个方面进行优化。在语言模型方面,我们从语料、平滑方法、模型混合等方面进行分析。在翻译模型方面,我们考虑分词对翻译模型的影响。我们的方法使翻译系统性能得到了较大幅度的提升。(3)文言文阅读理解答题技术的研究。对选中的三类题进行答题技术的研究。将选项准确性抽象为某种相似度,最后依据相似度的大小确定答案。对于翻译辨析题和概括分析题,依据词袋、最长公共子串、编辑距离、余弦相似度、N-gram等设计了24种相似度。对于词意辨析,依据词袋、短语翻译表、词意相似度等设计了7种相似度。使用相似度答题取得了不错的答题准确率。对于词意辨析题,依据相似度获取了8个特征,使用svm-rank进行三重交叉校验,得到了更高的答题准确率。