基于N-gram模型的哈萨克语实体名识别方法研究

被引量 : 0次 | 上传用户:dukewyh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
实体名是一个文本中最基本的信息元素,它是正确理解一篇文章的基础,实体名识别对机器翻译、文本检索等都有着重要的指示作用。目前,研究人员在英语和汉语实体名识别两个方面都取得了较多的研究成果,然而哈萨克语实体名识别还处于研究阶段,因此研究哈萨克语实体名识别具有重大的理论和现实意义。本文分析了国内外在实体名识别方面所做的一些研究工作,结合哈萨克语实体名的特点,采用了基于规则和统计相结合的方法,提出一种基于N-gram语言模型的哈萨克语可信度计算方法进行哈萨克语实体名识别研究,设计并实现了一个哈萨克语实体名识别系统。该系统能较好地完成对哈萨克语实体名的识别,使人们能快速地从文本中获取有效的信息,具有一定的应用价值。最后,本文对一个月的《新疆日报》哈语版语料进行了测试,测试结果表明该系统对哈萨克语实体名的识别效果比较满意,其准确率、召回率和F值都达到了60%以上。
其他文献
“政府购买服务”作为政府提供公共服务的一种新理念、新机制和新方法,近年来被中国各级地方政府日益广泛实践于社会公共服务的多个领域,逐渐成为政府提高公共服务水平的重要
20世纪90年代以来,随着经济全球化的进一步深化,现代通讯技术的快速发展,信息和知识的进一步数字化和标准化,越来越多的公司将非核心的服务业务外包给外部企业来执行,以达到
ABS是一种热塑性工程材料,在电器工业、轻工业、汽车工业及管材管件等方面都有应用,但由于其氧指数很低,发烟量很大,严重影响其使用的安全性,所以对其阻燃性能的研究就显得尤
猪病毒性腹泻的主要病原包括猪流行性腹泻病毒(PEDV)、猪传染性胃肠炎病毒(TGEV)和猪轮状病毒(PoRV)。三种病毒单独感染都会引起仔猪发生严重的腹泻和脱水,造成很高的死亡率,
<正> 近来,笔者自拟“固齿汤”治疗牙齿松动症7例,近期疗效满意,现介绍如下.[一般资料]7例中,男6例,女1例;年龄36~52岁;病程最长4年,最短3月.全部病例均见咀嚼时牙齿松软无力
目的探讨磁共振扩散加权成像(DWI)在子宫内膜病变中的临床应用价值,通过对表观扩散系数(ADC)值的分析,对子宫内膜良恶性病变进行鉴别。方法对30例经病理证实的子宫内膜病变患
南宋末年的丞相陈宜中,是一个颇有争议的人物。这主要源于《宋史》对他的记载。《宋史》载:德事占二年(1276)二月,“大元兵薄皋亭山。宜中宵遁”。又载:“井澳之败。宜中欲奉王走占
习语是语言的精华与核心 ,具有鲜明的文化特色。习语翻译是翻译中所遇到的最棘手的问题之一。本文拟从习语的文化特异性这一角度来探讨《红楼梦》中习语的不同翻译方法 ,旨在