命名实体与基本名词短语识别研究

被引量 : 0次 | 上传用户:vecent
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体识别任务是确定文档中的人名、地名和机构名等文本片段及其类型的过程,而基本名词短语识别的目的是找出篇章中非递归、无后修饰成分的名词短语。二者是文本理解的基础步骤,在很大程度上影响着指代消解等自然语言处理系统的性能。指代消解是自然语言处理的重点和难点之一,涉及机器翻译、信息提取等诸多应用,它的解决依赖于命名实体识别、词性标注等相关技术。本文在深入分析命名实体识别和基本名词短语识别现有技术的基础上,以命名实体识别和基本名词短语识别为研究对象,进行了以下几个方面的工作:首先,本文针对部分地名、机构名嵌套其他命名实体结构的特点,采用层叠条件随机域模型来进行命名实体识别。该方法利用底层模型对简单的命名实体进行初步识别,挑选其中若干个最好识别结果传递到高层条件随机域模型中,进一步对复杂地名和组织机构名进行识别,提高命名实体识别的性能。其次,本文对中文基本名词短语识别采用基于错误驱动的层次模型方法,初步提取包含上下文环境信息的原子特征并进行组合,通过实验选定有效特征,再经过训练生成两层结构的组合分类器,与单纯使用一种分类器的结果相比,层次组合策略能有效提高系统性能。最后,本文将命名实体识别和基本名词短语识别的研究结果应用于中文指代消解平台,通过对预处理环节中命名实体识别和基本名词短语识别模块的改进,在ACE2005中文语料上的实验结果表明,能有效提高中文指代消解系统的性能。
其他文献
中小企业环境绩效水平低下,产生的污染问题日益严重,但中小企业的环境管理问题未受到应有重视。由于资金、技术和信息等资源限制,现有为大型企业而设计的绿色管理战略对中小
本文旨在用语料库的方法研究《道德经》英译本的翻译共性的两个特征,即显化和简化特征。迄今为止,英汉/汉英之间的翻译共性的研究主要集中在现当代语言之间翻译文本和原语文本
文章从供应链全过程角度,研究了物联网在原材料供应、生产制造、物流管理、销售与售后服务中的智能化应用。并对于未来实现以物联网为基础的智慧型供应链作深入探讨。
武田泰淳(1912—1976)是日本战后派的代表作家之一,因其独特的从军经历和中国体验而备受瞩目。他一生都与中国有着难以割裂的联系,创作了大量的中国题材作品,在当代以中国为
柴油机日趋高速化、紧凑化,其动力性、可靠性要求在不断提高,其零部件的载荷和工作条件也更加苛刻,其强度问题就变得更加重要。本文在柴油机主要零部件(曲轴和缸套)上应用有
本文对近年来在实际工程中出现的高层斜交网筒结构体系进行了初步分析和研究,介绍了几何形式、构件截面、连接节点的设计概念,并选取了双向斜交网筒结构作为研究重点,通过弹
21世纪,人类社会发展将进入一个新的时代,由工业经济逐渐向知识经济迈进,推动这一伟大潮流的是迅速发展的科学技术。科学技术已成为当代一个国家富强的源泉,区域经济发达的条
本课题旨在通过差异蛋白质组学的方法,寻找与大肠癌发生发展及转移相关的蛋白质分子,研究这些蛋白质与大肠癌发生发展的关系。近期的研究表明,肿瘤的进展和淋巴结转移程度都
近些年,中国重大食品安全事故频繁出现,卫生部食物中毒报告数和食物中毒人数有逐年增加的趋势,食品安全问题已经严重影响到公众的身体健康、行业的持续发展甚至社会的稳定。
川中丘陵区是我国水土流失最为严重的区域之一,人口众多,耕地稀少,土壤侵蚀严重,因此被列入长江上游水土流失重点防治工程的核心区域。本文以紫色土川中丘陵区40条农作型小流