基于条件随机场的维吾尔语人名识别

被引量 : 0次 | 上传用户:wmstudio
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,命名实体识别(NER)技术作为信息抽取的子领域,在自然语言处理领域中变得越来越重要了。命名实体是文本处理中主要信息元素之一,是正确理解文本的主要因素。维吾尔语命名实体识别技术是,在正确的理解维吾尔文本的基础上,将文本里常见的命名实体-人名,地名,组织名,时间,日期等实体识别出来,并按照其类型进行归类。命名实体识别是自然语言处理中必备的基础性工作之一,并同时能在很多技术应用中的关键技术,如:信息抽取,文字转换,信息检索,机器翻译等方面有很广的应用价值。所以,维吾尔语命名实体自动识别技术研究在自然语言处理领域中有很大的理论性意义和实践性价值。本文,最先回顾了命名实体识别技术在国内外的目前研究现状,并探讨了对命名实体识别技术所采用的各种方法。详细的介绍了基于条件随机场(CRF)的维吾尔人名识别方法和基于规则的地名识别方法。本论文完成的工作为以下:(1)详细介绍了条件随机场模型,并讨论了本模型比其他机器学习模型的特点。条件随机场模型是当前比较优秀的条件概率模型,它即克服了生成模型的独立性假设,同时避免了有向图模型的标记偏执问题,并具有这两种模型的优点。(2)研究并实现了基于条件随机场的维吾尔人名识别。首先,对维吾尔语黏着性特点的分析入手,研究总结了维吾尔人名的构成特点;完成了条件随机场模型建立和语料库建设的维吾尔文本设计;实现了以词形、词性、词干、后缀、首音节、最后一个音节和最近一个动词等为特征的基于条件随机场的维吾尔语人名识别方法,并用贪婪算法实现了最佳特征模板的选取。(3)本文更进一步探讨了维吾尔语中的地名内部结构特征,研究了基于规则的地名识别方法并且利用Visual C++编程工具实现了识别算法,也取得了初步的识别效率。本文的研究结果还可以用于维吾尔地名和机构名等其它命名实体的识别。
其他文献
2012年8月22日,俄罗斯正式加入了世界贸易组织(WTO),结束了为期19年的“入世”漫漫征程,成为WTO第156个成员国。俄罗斯加入WTO后将根据其“入世”承诺,分阶段降低关税、扩大服务贸
在英语中,“时”和“完成体”都是非常重要的动词语法范畴。国内外语法学家的相关著述多如繁星,众说纷纭。尽管人们普遍承认“时”具有多种用法,但是认真研究这些用法之间关
研究保鲜米粉的原料粉的含水量 ,包装的真空度 ,复蒸温度和时间等工艺参数。确定了软罐头保鲜米粉生产的工艺路线。
利用职务便利犯罪作为是刑事犯罪的一种类型,在当今社会表现得越来越突出,并已成为整个社会所重点关注的问题。要实现对刑法中利用职务便利犯罪问题的科学理解,必须首先对其中涉
数字城市是当前城市建设关注的焦点,是城市发展的更高级状态。数字城市建设的重要性在于:是城市可持续发展的核心动力;是提高城市管理水平的内生动力;是城市信息化进程的具体体
在我国企业蓬勃发展的同时,员工的离职率也在不断增长。虽然主动离职表示员工具有更多的选择机会,但对企业来说,人力资源成本的增加就意味着企业经营成本的增加,那么企业的竞争压
随着经济的发展和人们生活的多样化,人们的居住方式出现了些新情况,如经营场所和居住场所混同的情况出现。这也引起了司法实务中对入户抢劫裁判时出现了认定上的分歧。本文将以
根据医学免疫学的特点和我国教学现状,设计了多种互动式教学方式,通过创设问题情境,建立激励机制,创建团队,组织小组活动等,在课堂教学中创造愉快、和谐、平等、探究的气氛,
比喻虽是一种文学修辞方法,但在数学教学中若能恰当运用数学比喻,它同样具有改善课堂学习氛围,激发学生灵感,化解教学难点,提高教学效果之功效.
近年来,随着我国国民经济的快速发展,国家综合实力的显著提高,越来越多的外国人开始学习汉语,对外汉语教学已经形成了一定的规模。据统计,目前全世界有四千万左右的人在学习