基于条件随机域模型的中文地名识别的研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户：forbj

【摘要】

：

中文地名识别属于中文命名实体(Named Entity)识别范畴,它是自然语言处理的基础任务之一,是机器翻译、信息检索、问答系统等技术的基础,中文地名在命名实体中占有很大比例。

【作者】

：

马龙

【机构】

：

大连理工大学

【出处】

：

大连理工大学

【发表日期】

：

2009年期

【关键词】

：

自然语言处理命名实体识别双层模型条件随机域

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

中文地名识别属于中文命名实体(Named Entity)识别范畴,它是自然语言处理的基础任务之一,是机器翻译、信息检索、问答系统等技术的基础,中文地名在命名实体中占有很大比例。由于中文地名自身的特点,中文地名识别一直是中文自然语言处理的难题。本文在已有研究的基础上,利用条件随机域(Conditional Random Fields,CRFs)模型进行中文地名自动识别的研究,旨在提高中文地名识别的效果。本文的核心工作概括为以下两个方面:(1)首先简要介绍了隐马尔科夫理论和最大熵隐马尔科夫模型理论,然后进一步介绍了由最大熵理论发展起来的CRFs模型。CRFs模型是目前比较优秀的条件概率模型,它没有隐马尔科夫模型的输出独立性假设,同时最大程度上降低了最大熵模型的标记偏置问题带来的影响,从而可以利用上下文特征获得全局最优的标注结果。(2)在传统用CRFs模型进行中文地名识别中,使用单层CRFs模型很难获取远距离特征,因此为了易于处理非本地依赖实体的识别,提出双层CRFs模型:将地名识别问题转化为序列标注问题,结合中文地名的特点,首先将中文文本中提取的地名特征分为三类:局部特征、非局部特征和词典特征,同时将训练文本中的地名提取出来作原始地名词典,然后利用局部特征训练第一层CRFs,对测试语料进行测试,将识别的结果加入到原始地名词典中,第二层CRFs利用非局部特征和通过最大匹配法获的词典特征进行。本文的主要贡献是在进行中文地名识别时使用双层CRFs模型获得文本的远距离特征从而解决了标记一致性问题。有效利用已有的研究方法,设计并实现了中文地名识别系统。实验证明,基于双层条件随机域的中文地名识别方法,能有效的提高中文地名识别效果。

其他文献

基于J2EE轻量级框架的安全管理平台的设计与实现

在Internet技术日新月异的时代,Web开发不仅要求快捷,更要能应付这多变的商业需求,防止通过网络的恶意行为而保证系统的安全。因此开发框架的轻量级、安全性成为当前开发最需

学位

轻量级框架安全性认证授权SpringAcegi

基于颜色和纹理特征和图像增强和分析算法

在讨论细节之前，我们仅仅在以下方面总结我们的工作：我们提出了一个基于人类视觉系统的增强彩色图像对比度的新方法。在该方法中我们将原始图像的任意片段的每个像素的RGB值转

学位

颜色增强彩色空间小波变换纹理特征神经网络图像增强

基于Open ESB的企业应用集成研究

伴随着各企业各部门信息系统的不断完善，企业应用集成技术也在不断的发展。在竞争激烈的全球化进程的推动下，企业的管理者和决策者不仅越来越重视企业的信息化建设和规范化管理

学位

企业信息系统企业应用集成Open ESB集成技术消息转换资源共享业务管理

基于本体的语义检索方法研究

随着近几年科学技术的快速发展,互联网已成为人们获取信息资源的主要途径,在具有海量信息的互联网中,如何快速准确的获得所需要的资源成为了迫切需要解决的问题。传统的检索

学位

本体语义检索语义相似度查询扩展局部共现

基于聚类和隐马尔可夫模型的网络入侵检测

在计算机网络迅猛发展的今天,Internet已经成为人们日常生活中必不可缺少的部分,网络安全也越来越成为人们关注的焦点。为了保证系统和网络资源的安全,就需要迅速而有效地发

学位

网络安全入侵检测数据挖掘聚类分析隐马尔可夫模型

资源受限的DTN路由优化策略研究

DTN网络(延迟容忍网络)是一种新型网络,与传统网络相比,其具有间歇性连接、错误率高、缺乏端到端的连接通路等特点,传统的“存储-转发”的路由模式已不再适用。为了解决上述

学位

DTN网络路由策略缓存管理优化控制

多视图三维重建特征点检测匹配和点云区域裁剪算法改进

学位

几种基于混沌系统的图像加密算法研究

随着计算机网络通信技术和多媒体技术的发展,人类社会进入了数字时代。多媒体由于数据的直观性强、信息量大等特点使得它成为人类社会在信息利用方面的重要手段。尤其是数字

学位

图像加密时空混沌密码分析

粗糙集理论的研究及其在电力业务数据挖掘中的应用

RS理论是上世纪八十年代初由波兰数学家Pawlak提出的一种处理不精确知识的数学理论。其主要思想是利用已知的知识或信息来近似不精确的概念或现象。为快速高效地对海量GIS数

学位

粗糙集GIS变精度遗传算法GVMS

基于Leap Motion与半浸入式智能眼镜的隐秘处理平台

信息技术的发展非常快速,它已经成为社会发展和进步的重要力量。国家的国防、通信、能源、金融、交通、航空等基础设施系统越来越多的利用到网络传输数据和进行管理,人们的生

学位

Leap Motion智能眼镜隐秘虚拟键盘手势识别

基于条件随机域模型的中文地名识别的研究

与本文相关的学术论文