基于条件随机域模型的中文地名识别的研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:forbj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文地名识别属于中文命名实体(Named Entity)识别范畴,它是自然语言处理的基础任务之一,是机器翻译、信息检索、问答系统等技术的基础,中文地名在命名实体中占有很大比例。由于中文地名自身的特点,中文地名识别一直是中文自然语言处理的难题。本文在已有研究的基础上,利用条件随机域(Conditional Random Fields,CRFs)模型进行中文地名自动识别的研究,旨在提高中文地名识别的效果。本文的核心工作概括为以下两个方面:(1)首先简要介绍了隐马尔科夫理论和最大熵隐马尔科夫模型理论,然后进一步介绍了由最大熵理论发展起来的CRFs模型。CRFs模型是目前比较优秀的条件概率模型,它没有隐马尔科夫模型的输出独立性假设,同时最大程度上降低了最大熵模型的标记偏置问题带来的影响,从而可以利用上下文特征获得全局最优的标注结果。(2)在传统用CRFs模型进行中文地名识别中,使用单层CRFs模型很难获取远距离特征,因此为了易于处理非本地依赖实体的识别,提出双层CRFs模型:将地名识别问题转化为序列标注问题,结合中文地名的特点,首先将中文文本中提取的地名特征分为三类:局部特征、非局部特征和词典特征,同时将训练文本中的地名提取出来作原始地名词典,然后利用局部特征训练第一层CRFs,对测试语料进行测试,将识别的结果加入到原始地名词典中,第二层CRFs利用非局部特征和通过最大匹配法获的词典特征进行。本文的主要贡献是在进行中文地名识别时使用双层CRFs模型获得文本的远距离特征从而解决了标记一致性问题。有效利用已有的研究方法,设计并实现了中文地名识别系统。实验证明,基于双层条件随机域的中文地名识别方法,能有效的提高中文地名识别效果。
其他文献
在Internet技术日新月异的时代,Web开发不仅要求快捷,更要能应付这多变的商业需求,防止通过网络的恶意行为而保证系统的安全。因此开发框架的轻量级、安全性成为当前开发最需
在讨论细节之前,我们仅仅在以下方面总结我们的工作:我们提出了一个基于人类视觉系统的增强彩色图像对比度的新方法。在该方法中我们将原始图像的任意片段的每个像素的RGB值转
伴随着各企业各部门信息系统的不断完善,企业应用集成技术也在不断的发展。在竞争激烈的全球化进程的推动下,企业的管理者和决策者不仅越来越重视企业的信息化建设和规范化管理
随着近几年科学技术的快速发展,互联网已成为人们获取信息资源的主要途径,在具有海量信息的互联网中,如何快速准确的获得所需要的资源成为了迫切需要解决的问题。传统的检索
在计算机网络迅猛发展的今天,Internet已经成为人们日常生活中必不可缺少的部分,网络安全也越来越成为人们关注的焦点。为了保证系统和网络资源的安全,就需要迅速而有效地发
DTN网络(延迟容忍网络)是一种新型网络,与传统网络相比,其具有间歇性连接、错误率高、缺乏端到端的连接通路等特点,传统的“存储-转发”的路由模式已不再适用。为了解决上述
学位
随着计算机网络通信技术和多媒体技术的发展,人类社会进入了数字时代。多媒体由于数据的直观性强、信息量大等特点使得它成为人类社会在信息利用方面的重要手段。尤其是数字
RS理论是上世纪八十年代初由波兰数学家Pawlak提出的一种处理不精确知识的数学理论。其主要思想是利用已知的知识或信息来近似不精确的概念或现象。为快速高效地对海量GIS数
信息技术的发展非常快速,它已经成为社会发展和进步的重要力量。国家的国防、通信、能源、金融、交通、航空等基础设施系统越来越多的利用到网络传输数据和进行管理,人们的生