论文部分内容阅读
随着全球数字化、网络化的发展,蒙古文网络资源也越来越丰富。然而,蒙古文网络资源中存在编码不统一,无法实现共享等问题,不仅严重阻碍了蒙古文互联网的发展,更是对蒙古文搜索引擎技术带来了挑战。现有的蒙古文互联网搜索引擎还有许多缺陷,同时由于蒙古文网站数量不多,内容单一、更新速度缓慢,致使检索到的有用信息有限。因而蒙古族网络用户查找资源时往往选择其他搜索引擎来查找中文或英文的网站来获取信息。但在蒙古族网络用户构造检索提问式时,受到语言之间差异的影响,很难准确用外语表达自己的需求,从而增加了信息获取的难度。为适应蒙古文互联网发展现状,迫切需要建立一个蒙汉跨语言信息检索系统。蒙汉跨语言信息检索系统能够扩大信息搜索范围,快速获取网上信息,同时也能够很好地缓解民族地区群众上网语言障碍,对促进地区科教文化事业的发展将起到积极作用。在实现蒙汉跨语言信息检索时,可以采用基于机器翻译系统的方法、基于语料库的方法及基于字典的方法,而它们存在着共同缺陷,即在查询转换过程中,只是浅层地进行字符集的转换和匹配,未能达到语义层面上的翻译。为将蒙汉跨语言信息检索提升到语义层面上的翻译检索,亟待需要一个支持蒙汉跨语言信息检索的语义资源。本文的重点是构建面向跨语言信息检索的蒙汉语义词典框架,主要通过以下几个方面的工作来完成。(1)首先以跨语言信息检索为切入点,研究分析了跨语言信息检索的相关理论方法。(2)研究本体技术及其在跨语言信息检索中的应用,为构建面向跨语言信息检索的蒙汉语义词典提供理论基础。(3)采用多语言本体技术构建面向跨语言信息检索的蒙汉语义词典。该方案中充分考虑了语义词典的概念及概念之间关系的表达,并进一步对同义术语语义关系的表达,概念语义相似度的计算及其在跨语言信息检索中的应用进行了深入的剖析和研究。最后以计算机应用技术分支的概念作为领域对象入手,构建了一个实验性的计算机术语蒙汉语义词典。(4)设计并给出了一种基于概念的蒙汉语义词典的查询方法,将查询提升到概念层面,进行语义查询,返回与查询结果具有语义关联(同义、上位、下位等)的相关概念及对应蒙汉术语。本文的工作,不仅丰富了语义词典的构建方法,同时为蒙汉跨语言信息检索提供了基础资源,对蒙古文语言资源建设有促进作用。