基于Stacking框架的命名实体识别

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:cyon
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文命名实体识别是指识别出文本中特定的实体。它是机器翻译、文本分类、信息检索和自动文摘、自动问答等多种自然语言处理技术的基础。作为信息抽取的基本任务,为了促进其他技术和应用的发展,命名实体识别一直是自然语言处理的研究热点之一。因此,研究中文命名实体的识别技术是很有意义,也是非常重要的。针对现代汉语文本的特点,本文主要研究以人名、地名和机构名的识别为核心内容的中文命名实体识别问题。我们以SIGHAN竞赛的命名实体定义和评测标准为依据,利用基于Stacking框架的组合分类器来进行命名实体识别,结合局部特征和全局特征,对中文命名实体识别进行了实验。另外,在结合多种特征的同时,本文又加入了词列表信息来进一步提高实验系统的性能。在本文中,我们详细介绍了Stacking框架的定义、模型结构、训练方法以及模型算法的选择等,提出了适合于各类中文命名实体的特征模板。在特征选择过程中为了不影响命名实体识别的精度并使其保证一定的独立性,我们并不选用分词和词性标注作为特征加入,而以字为单位进行特征选择。在应用了实体所在句子内部的局部特征基础上,利用了相同实体在同一语料中的其他共现来抽取有用的全局特征。本文将以上方法结合起来,进行中文命名实体识别,通过实验进行验证,取得了较好的效果,证明了其有效性。
其他文献
人眼精确定位作为人脸图像规整化的预处理步骤对人脸识别系统的性能具有重要影响。但是人眼相对于人脸包含的特征较少,同时容易受到复杂光照、表情变化的影响,造成对象模式变
随着Internet的迅速发展,各种各样的数字多媒体信息包括文本、图像、音频、视频等通过网络广泛传播。同时网上的信息可以被方便地复制和修改,因特网上的侵权问题变得越来越严
网格是构建在互联网上的一组新兴技术,网格安全是网格系统中必不可少的机制。为解决网格环境中的动态性和不确定性所带来的安全问题,将信任机制引入到网格环境中,通过对网格
软件体系结构描述语言ADL(Architecture Description Language, ADL)具有严格的形式化语义基础,为软件体系结构的表示与分析提供支持,已成为软件工程研究领域的热点。随着软
软件复用是提高软件产品质量和软件生产效率的关键技术,它分成生成型复用和组装型复用两类。目前,生成型复用的主流技术是模型驱动开发(MDD),它从平台无关模型(PIM)或平台相关模型(PS
随着信息技术的发展,企业在经营过程中建立了大量的应用系统,而这些应用系统存在结构异构、集成困难的问题。用户在处理业务时往往需要调用大量应用系统中的服务,如何有效地
中医是中华民族的瑰宝。然而由于历史条件的制约,传统中医理论往往带有很强的主观性,其诊断手段也缺乏客观化诊断标准,故被许多人认为是一门经验科学,其科学性也屡遭质疑,严重阻碍了中医学的发展。如今,中医学的发展正强烈的呼唤着现代科学技术新方法、新手段的支持。如何在保持中医诊断自身优势基础上,通过现代技术手段改革与创新传统中医诊断学,实现中医诊断的客观化、标准化,将其纳入到现代科学技术发展的轨道是国人亟待
图像语义分析与描述是多媒体领域非常活跃的研究方向,研究目的是设计符合人类认知的算法和系统,实现图像信息的有效组织、管理和共享。图像语义分析与描述是图像应用软件实现商
大脑是一个非常复杂的系统,在这个系统中,多个神经元、神经元集群或者多个脑区相互连接成庞杂的结构网络,并通过相互作用完成脑的各种功能。大脑是神经系统的中心。神经系统复杂
随着经济全球化以及信息技术的高速发展,网络化服务的种类层出不穷,单一化服务已不能满足市场需求,组合服务的出现解决了这一危机。目前有关组合服务研究主要集中在组合服务