基于蒙古文语料库的人名自动识别

被引量 : 26次 | 上传用户:mbx1998
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蒙古文人名的自动识别是命名实体识别的子任务之一。中、英文信息处理经历了半个世纪的发展,在基础资源的建设、词性标注、信息检索、文本分类、机器翻译、语言识别与合成、人机对话等领域都取得非常大的发展,中、英文信息处理的现代化发展,对国内少数民族语言信息处理的理论与技术发展也起到了深刻的促进作用。与中、英文信息处理相比,蒙古文信息处理虽然起步稍晚,但也取得了少数民族信息处理领域的辉煌成就。蒙古文信息处理已初步完成了字、词处理阶段,现已进入句处理阶段,蒙古文信息处理已完成短语结构关系识别、短语边界界定等浅层句法分析任务,正向深层句法分析迈进,蒙古文信息检索、自动文摘、文本分类、机器翻译的研究也方兴未艾。蒙古文词法分析与标注对短语、句法、语义、篇章的研究具有重要意义,不过作为基础环节的词法分析与标注,在未登录词,尤其是命名实体的识别研究未能繁荣发展。命名实体识别上的欠缺始终影响着词法分析的精度,并进而影响短语分析、句法分析、信息检索、机器翻译等领域的发展。专有名词是语料库的重要组成部分,专有名词识别技术的突破是提高蒙古文词法分析正确率及其他后续工作的重要基础,歧义和未登录词的识别是影响切分精度的两大障碍,未登录词包括新词和人名、地名等命名实体。本文作为蒙古文人名自动识别的研究成果,涉及普通人名及兼类人名的识别,因而我们的研究具有相当高的学术价值及应用价值。蒙古文本中人名数量众多,兼类现象较为普遍,研究蒙古人名的论述较少,尚无太多现成的理论与技术可供参考,因而蒙古文人名识别遇到很多难题,主要表现在:☆人名是开放集合,无法采取穷举方法。蒙古族人名兼类现象较为严重,越普通的词,成为人名的现象也越普遍,名词、动词、形容词、数词、时间词、副词、代词、模拟词都能成为人名,这给人名识别带来很大困难。☆蒙古文深加工语料库规模比起中、英文规模尚小,这必定影响到统计方法的运用。目前内蒙古大学已储备了200万词规模深加工语料库,而我们使用26万词规模语料库,语料库的规模使规则提取及机器学习受到一定限制。☆专有名词的识别一直是蒙古文词法分析与标注的难点问题,但人名易与地名及其他专有名词兼类,因而专有名词之间的兼类问题也是困扰我们的难点问题。本文采用了最大熵的统计方法识别蒙古文人名,在传统的规则为主的研究基础上,将最大熵的数学模型成功应用于蒙古文命名实体的识别当中,实现了蒙古文人名自动识别系统。本文的创新和贡献主要体现在:◇首次建立了蒙古文人名识别语料库目前,蒙古文语料库已具备了一定的规模,这对蒙古文信息处理的繁荣发展起到良好的推动作用。不过迄今为止,国内外还没有建立专门面向蒙古文人名识别的语料库,我们从网络抓取5773个蒙古文人名句,与内蒙古大学的语料库一同训练识别模型,测试自动识别的结果,有效补充了语料库缺乏带来的缺憾。◇系统研究了蒙古族人名的内外部结构我们深入分析了蒙古人名的民族特征、时代特征、地域特征、性别特征,深入总结了蒙古文人名的内部组成模式,对蒙古族人名的结构类型及特点,对蒙古族特有的蒙古姓氏及其来源进行解读。◇提出了蒙古文语料库标注及转写规范我们在对蒙古文语料库的标注现状进行分析的基础上,提出了,“语料库用现代蒙古语标注规范”,并针对汉语人名标注的诸多问题,以蒙古文标注外来词的固定习惯为基础,以《现代蒙古语语料库标注规范》为参考,提出了详尽的“汉语人名的拉丁转写方案”。◇建立人名识别的知识库我们为自动识别蒙古文人名,建立了包括“汉语姓氏词典、蒙古姓氏词典、蒙古族普通人名词典、汉语姓氏拉丁映射表、汉语人名拉丁映射表、梵藏满人名词典、著名人物词典、人名指示词库、地名词典、地名后缀词典、机构名后缀词典”等词典或映射表的普通人名知识库,建立了包含“兼类人名词典、兼类词搭配词典、蒙古人名词干词典”等知识的兼类人名知识库。◇设计并实现了蒙古文人名自动识别系统实验证明,作为国内外在蒙古文命名实体识别中较早运用统计方法的学术成果,本研究封闭测试的正确率94.56%,召回率85.15%,F值89.61%,取得了较为满意的识别效果。
其他文献
<正>海风阵阵,波光粼粼,旅顺新港,龙年新春。蓝天下,千座塔吊,碧波上,万吨巨轮。看公路如网,高楼如林;听轮渡笛鸣,车轮辚辚。大学城,蓄锐莘莘学子;工业园,聚集产业大军。中远
<正>变革的时代需要有心人,党建的大厦呼唤创新者。目前,基层党的建设正随着经济发展进入到一个新常态。如何推进基层党建适应新常态、构建新格局、创造新作为,是新形势下党
在区域经济一体化发展的进程中,东亚FTA一直滞后于欧美地区。近年来,东亚FTA非均衡、多层次的FTA格局进一步强化。中日韩FTA进展缓慢,RCEP与TPP交叉重叠,双边FTA层出不穷。影
针对运营中的上海轨交7号线耀华路站站厅上部钢结构吊装施工的特殊情况,选用扒杆作为主要吊装机具,并对扒杆选型、平面位置及吊装顺序作了合理安排,同时做好吊装区域的防护工
语言教学是阅读教学内容的基本内容,语言品味能力是学生最重要的阅读能力之一。笔者从广度、深度、梯度和力度四个方面分析了初中语文语言品味教学实践活动设计存在的一些问
本文认为,数字在人们的心理上有丰富的附加象征意义,维吾尔、哈萨克等民族特别宠爱“四十”,视之为天数,是数目的最大限度,称“七”为圣数,赋予其神秘的色彩。
<正> 随着国内外食物疗治的兴起,目前已通过改变饲料的成分,添加饲喂一些特殊的微量元素,结合改变禽舍环境管理条件,以及控制水质等措施,进行生产加工各类药蛋供食用,防治一
期刊
英国学者怀特和纽琳最近揭示了华兹华斯诗歌中的共同体意识,但是他们的研究都有失偏颇:纽琳只偏重个人对共同体的责任这一角度,而怀特则把个人和共同体看作对立的概念,对两者
<正>近期,上证指数在探底的过程中出现回升态势,市场的赚钱效应也逐步展开。像券商、5G等板块持续表现,带来比较强的赚钱效应。另外,像白酒、食品饮料、家电等消费白马股出现