文言文翻译及阅读理解关键技术的研究

被引量 : 0次 | 上传用户:yoclin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在漫长的历史长河中,古汉语书写的典籍汗牛充栋。近年来,统计机器翻译技术得到了很大发展。Moses等开源的翻译工具只需要双语平行句对即可训练出翻译系统。同时,其他自然语言处理技术的发展更是激励着人们解决现实的人工智能问题。本课题的目的在于探索文言文翻译及阅读理解答题的关键技术。为了解决这个任务,我们的研究包含以下几个方面。(1)古汉语现代汉语平行语料库的获取和加工。本文利用互联网上存在的古汉语现代汉语平行网页获取古汉语现代汉语平行语料库。本文将平行语料的获取分为两个阶段,第一个阶段是获取网页正文,第二个阶段是句子对齐。通过对基于DOM树的文本密度的方法进行改进,我们提出基于DOM树的标点密度的方法。在获取古汉语现代汉语网页正文时,我们的方法F值得到了一定的提升。在句子对齐时,我们引入句子长度、匹配模式、同源率,使用对数线性模型对句子得分进行建模。通过不同的框架,我们引入了10个同源率。和基于长度的句子对齐方法相比,我们的方法使结果得到了较大的提升。(2)基于Moses的古汉语和现代汉语翻译系统的优化。本文在获取了古汉语现代汉语平行句对后,对翻译系统的优化进行研究。我们使用Moses从语言模型和翻译模型两个方面进行优化。在语言模型方面,我们从语料、平滑方法、模型混合等方面进行分析。在翻译模型方面,我们考虑分词对翻译模型的影响。我们的方法使翻译系统性能得到了较大幅度的提升。(3)文言文阅读理解答题技术的研究。对选中的三类题进行答题技术的研究。将选项准确性抽象为某种相似度,最后依据相似度的大小确定答案。对于翻译辨析题和概括分析题,依据词袋、最长公共子串、编辑距离、余弦相似度、N-gram等设计了24种相似度。对于词意辨析,依据词袋、短语翻译表、词意相似度等设计了7种相似度。使用相似度答题取得了不错的答题准确率。对于词意辨析题,依据相似度获取了8个特征,使用svm-rank进行三重交叉校验,得到了更高的答题准确率。
其他文献
高校管理改革一直是社会各界关注的焦点,十八届三中全会通过的《中共中央关于全面深化改革若干重大问题的决定》为高校改革再次指明了方向。本文通过探讨新公共管理理论的内
20世纪80年代以来,我国现代渔业的发展取得了巨大的进步,我国现代渔业的发展实现了稳中有快、稳中有好的良好态势。现代渔业经济总量实现持续较快增长,市场中的水产品总量保
基于中国传统思想的当代建筑创作探寻,旨在立足时代背景下结合实际挖掘传统思想的现实意义。中国传统建筑所重“礼制”是浸透了儒家伦理精神的理性思维的体现,而中国古典园林
电动汽车与电网互动(Vehicle to Grid,V2G)技术为解决能源与环境问题提供了一种有效手段。通过V2G技术,电网效率偏低、汽车尾气排放等问题可得到一定程度的缓解。不过,将电动
随着经济社会的不断发展,人们的需求层次逐渐提高,用户进行消费时不单注重产品所带来的物质享受,更注重的是与其交互时所带来的精神感受。用户体验是用户参与的活动,它会刺激
本文根据学术界对市场内生型行业协会的界定及实地调研结果,将某些市场内生型行业协会运作过程中存在的“找婆婆”现象称为偏离行为。借助资源依赖理论和新制度主义理论,本文
《世说新语》表现了魏晋人对人格美、人性美和自然美的追求。小说以传神之形刻划人物形象,描容止以现神明,摹言语以传神明,使人物形神俱肖。
该研究旨在通过分析商务英语信函中模糊语的特点来帮助人们认识到模糊语的重要性,从而正确地利用模糊语以取得有效的交际。研究从以下五部分展开:第一部分简介,引出此项研究
在泰国,华人与主体民族的关系相对而言是东南亚地区最和谐的,当地社会对华人族群的融合/同化策略也是最成功的。这是由于泰国社会的宽容性和政府同化政策的开明导致的,但在这
同性恋在中国长期以来是个暧昧而敏感的话题,媒体对其采取的态度大多是回避和漠视。本文以接受美学视角为切入点,论述了在接受美学理论视角下都市报对同性恋群体形象构建的启