论文部分内容阅读
蒙古文人名的自动识别是命名实体识别的子任务之一。中、英文信息处理经历了半个世纪的发展,在基础资源的建设、词性标注、信息检索、文本分类、机器翻译、语言识别与合成、人机对话等领域都取得非常大的发展,中、英文信息处理的现代化发展,对国内少数民族语言信息处理的理论与技术发展也起到了深刻的促进作用。与中、英文信息处理相比,蒙古文信息处理虽然起步稍晚,但也取得了少数民族信息处理领域的辉煌成就。蒙古文信息处理已初步完成了字、词处理阶段,现已进入句处理阶段,蒙古文信息处理已完成短语结构关系识别、短语边界界定等浅层句法分析任务,正向深层句法分析迈进,蒙古文信息检索、自动文摘、文本分类、机器翻译的研究也方兴未艾。蒙古文词法分析与标注对短语、句法、语义、篇章的研究具有重要意义,不过作为基础环节的词法分析与标注,在未登录词,尤其是命名实体的识别研究未能繁荣发展。命名实体识别上的欠缺始终影响着词法分析的精度,并进而影响短语分析、句法分析、信息检索、机器翻译等领域的发展。专有名词是语料库的重要组成部分,专有名词识别技术的突破是提高蒙古文词法分析正确率及其他后续工作的重要基础,歧义和未登录词的识别是影响切分精度的两大障碍,未登录词包括新词和人名、地名等命名实体。本文作为蒙古文人名自动识别的研究成果,涉及普通人名及兼类人名的识别,因而我们的研究具有相当高的学术价值及应用价值。蒙古文本中人名数量众多,兼类现象较为普遍,研究蒙古人名的论述较少,尚无太多现成的理论与技术可供参考,因而蒙古文人名识别遇到很多难题,主要表现在:☆人名是开放集合,无法采取穷举方法。蒙古族人名兼类现象较为严重,越普通的词,成为人名的现象也越普遍,名词、动词、形容词、数词、时间词、副词、代词、模拟词都能成为人名,这给人名识别带来很大困难。☆蒙古文深加工语料库规模比起中、英文规模尚小,这必定影响到统计方法的运用。目前内蒙古大学已储备了200万词规模深加工语料库,而我们使用26万词规模语料库,语料库的规模使规则提取及机器学习受到一定限制。☆专有名词的识别一直是蒙古文词法分析与标注的难点问题,但人名易与地名及其他专有名词兼类,因而专有名词之间的兼类问题也是困扰我们的难点问题。本文采用了最大熵的统计方法识别蒙古文人名,在传统的规则为主的研究基础上,将最大熵的数学模型成功应用于蒙古文命名实体的识别当中,实现了蒙古文人名自动识别系统。本文的创新和贡献主要体现在:◇首次建立了蒙古文人名识别语料库目前,蒙古文语料库已具备了一定的规模,这对蒙古文信息处理的繁荣发展起到良好的推动作用。不过迄今为止,国内外还没有建立专门面向蒙古文人名识别的语料库,我们从网络抓取5773个蒙古文人名句,与内蒙古大学的语料库一同训练识别模型,测试自动识别的结果,有效补充了语料库缺乏带来的缺憾。◇系统研究了蒙古族人名的内外部结构我们深入分析了蒙古人名的民族特征、时代特征、地域特征、性别特征,深入总结了蒙古文人名的内部组成模式,对蒙古族人名的结构类型及特点,对蒙古族特有的蒙古姓氏及其来源进行解读。◇提出了蒙古文语料库标注及转写规范我们在对蒙古文语料库的标注现状进行分析的基础上,提出了,“语料库用现代蒙古语标注规范”,并针对汉语人名标注的诸多问题,以蒙古文标注外来词的固定习惯为基础,以《现代蒙古语语料库标注规范》为参考,提出了详尽的“汉语人名的拉丁转写方案”。◇建立人名识别的知识库我们为自动识别蒙古文人名,建立了包括“汉语姓氏词典、蒙古姓氏词典、蒙古族普通人名词典、汉语姓氏拉丁映射表、汉语人名拉丁映射表、梵藏满人名词典、著名人物词典、人名指示词库、地名词典、地名后缀词典、机构名后缀词典”等词典或映射表的普通人名知识库,建立了包含“兼类人名词典、兼类词搭配词典、蒙古人名词干词典”等知识的兼类人名知识库。◇设计并实现了蒙古文人名自动识别系统实验证明,作为国内外在蒙古文命名实体识别中较早运用统计方法的学术成果,本研究封闭测试的正确率94.56%,召回率85.15%,F值89.61%,取得了较为满意的识别效果。