Web中文信息抽取中命名实体识别的研究及应用

来源 :西北大学 | 被引量 : 0次 | 上传用户:cgz1987
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息产业的不断发展,网络已经成为人们工作生活中不可缺少的重要工具。Web也随之成为人类获取信息的主要来源。Web中的数据正以每天新增一百万个页面的速度增长。到目前为止,页面的数量已经超过10亿。面对海量的、非结构化的文本信息、如何快速有效地获得我们所需要的在信息成为当前信息处理的热点问题。信息检索(IR,Information Retrieval)和信息抽取(IE,Information Extraction)的技术研究正是为了解决这一问题。信息抽取的任务是把文本里包含的信息进行结构化处理,把非结构化及半结构化的信息变成类似表格一样结构化的组织形式,以便人们可以像查询数据库一样获取自己需要的信息。在实现信息抽取过程中,命名实体识别是一项具有关键作用的技术。命名实体(Named Entity,NE)识别是指识别出文本中特定的实体。它在信息抽取、文本分类、信息检索和自动问答等多种自然语言处理技术中起着至关重要的作用,是这些技术实现的基础。本文主要以从若干有关名人传记的网页中抽取名人的姓名、籍贯以及与他们有关的机构名为例,研究了中文信息抽取中人名、地名和机构名的识别方法及其应用。本文主要采用基于规则和统计相结合的方法进行命名实体识别。同时指出传统的隐马尔科夫统计模型割裂了词与词之间的关系,忽略了上下文对当前词的影响这一局限性,通过改进的隐马尔科夫模型提高了地名实体识别的准确率和召回率。同时,在利用隐马尔科夫统计模型进行机构名实体识别的基础上,通过构建一元模型来识别那些缩写的以及没有标志词的机构名。实验证明取得了更好的识别效果。
其他文献
语音信号一直是人类进行信息交流的最普通的方式。然而,语音信号会不可避免地受到来自周围环境的干扰。因此,需要对混入干扰信号的语音信号做增强处理。寻求一种有效的算法以
UPFC是一种潮流控制的装置。它综合了许多柔性交流输电系统(FACTS)器件的灵活控制手段,是一种功能相对很强的FACTS系列器件。随着半导体制造技术和电子设计自动化技术的不断发展,UPFC控制系统设计也加快了步伐。本文首先对国内外对UPFC的现状及其控制算法进行了研究,针对目前输电系统存在的损耗大、传输率低的问题,采用开关损耗最小PWM算法进行UPFC控制系统的设计。然后,在给出UPFC逆变控制
随着程序设计竞赛领域内的许多研究,包括在线竞赛平台的开发和竞赛选手训练辅助系统的研究等等,这样一些需求或设想被提了出来,它们都希望机器可以自动化地处理程序设计试题
近年来,随着生物信息学、电子商务等行业的迅速发展,在这些领域积累了大量高维数据,利用数据挖掘技术能够在这些数据中找到许多对科学研究和市场营销起到重要作用的有价值的
当前,网络安全形势的日益严峻,而防火墙作为一种被动的防御工具有其自身的缺点,作为防火墙的重要补充的入侵检测系统越来越受到人们的关注。由于病毒对生物体所构成的威胁情
随着乌鲁木齐电网的发展,各类工业电器及电力电子器件的应用日益广泛。近年来尤其是钢铁企业炼钢电弧炉及轧机容量的增大,使得各种非线性负荷注入电网的谐波越来越多。谐波对电
随着在航空器和发动机上所用的机载系统和设备对软件的使用迅速增加,为满足适航性要求,航空无线电技术委员会(RTCA)制定了DO-178B标准。虽然DO-178B在国内民航领域越来越受重视
模型库是利用规范的形式存储模型以及相关信息的场所。模型库提供模型的定义、特征信息及模型代码,是模型元素的集合。本文首先对仿真模型库的概念和结构进行总结分析,通过对
数字化技术的发展和成熟,使越来越多的数字作品通过Internet进行传播,它们可以低成本、高速度地被复制和传播,但这些特性也容易被盗版者所利用,使得网络信息安全隐患正全方位
随着信息技术的发展及信息系统在社会生活各领域日益广泛且深入的应用,信息安全成为信息技术研究当中不可或缺的一部分,并越来越显示出它的重要性。操作系统的安全是整个信息