《知网》在命名实体识别中的应用研究

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:guoke3zhang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体识别是自然语言处理领域的一项基础研究,它对于语言的深层处理有重要意义。该文以最大熵模型为基础来进行名实体识别,提出了基于《知网》的两种改进策略来增强模型的泛化性能。第一种策略是将《知网》中词的义原作为特征加入到最大嫡模型中;第二种策略是利用《知网》来计算最大嫡模型中词特征之间的概念相似度。在北京大学《人民日报》语料上的实验结果表明第一种策略可以有效地提高名实体识别的性能,第二种策略的改进效果不明显。
其他文献
本文概要地介绍了13世纪《元朝秘史》的文献背景及原文所独有的复杂文本形式,通过对文本的内涵分析和版面分析,设计了关于《元朝秘史》电子检索系统的研制方案.其中主要解决
虽然金融危机过程中的国际经济走势还存在诸多不确定性,但我国经济运行已处于企稳回升的关键时期。因此,我们在思考和寻求因应金融危机的政策时,应立足当前、着眼长远,并涵括宏观
一、关于当前面临的形势和任务去年以来,我局生产经营内外部环境发生了很大变化,已经进入到了一个十分困难的时期。1999年,这些困难和压力正在逐步加大。主要表现在:一是市场
<正>~~
本文针对Wu-Manber多模式匹配算法在处理后缀模式情况下的不足,给出了一种改进的后缀模式处理算法,减少了匹配过程中字符比较的次数,提高了算法的运行效率。本文在随机选择的TRE
耗资巨大的"西气东输"工程已经启动,这意味着"气化中国"的构想正在变为现实,标志着我国天然气管道建设将进入发展时期。因此,研究与天然气管道建设相关的经济问题,对于加快天
文档处理是文字处理的关键组成部分,针对多语言混合排版的需求,本文提出了基于“框”的支持不同方向的多语言文本布局的文档处理模型。该模型把时文本布局方向的处理封装在文档
汉语词典查询是中文信息处理系统的重要基础部分,对系统效率有重要的影响。本文对汉语词典查询算法研究作了简要回顾,设计实现了基于双数组TRIE机制的汉语词典查询算法,并提出了
本文阐述了以配价作为基本描写法、真实语料为事实依据的维吾尔语框架语义知识库(简称框架网FrameNet)的构建,该知识库在构建维吾尔语词汇及其所属框架的语义词典等诸多领域有着
本文提出一种基于词语主题词相关关系的语言模型TSA-LM (Term Subject Association Based Language Model ),它的基本思想是把一篇文档分成两个文档块,一部分是由领域主题词表中