命名实体识别:One-at-a-time or All-at-once? Word-based or Character-based?

来源 :第七届中文信息处理国际会议 | 被引量 : 0次 | 上传用户:jenniechen007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体识别是找出文本中出现的人名、地名、机构名等,由于中英文的区别,中文本身没有分好词,在识别时,一种做法是先对文本分词后,再使用机器学习的方法进行识别,本文称之为基于词的方法(word-based);但是能不能不分词而直接识别呢(character-based)?识别效果又怎样?另外需要考虑的问题是,在识别时,是应该分别建立模型(one-at-a-time)识别不同类型的实体,还是用一个统一的模型来同时(all-at-once)识别所有的实体呢?本文对上述问题作了深入的研究,发现all-at-once,character-based方法的识别结果最好,而one-at-a-time,character-based方法虽然在机构名的识别上略差,但模型总的训练时间比all-at-once短很多.另外,本文实体识别是基于CRF模型,尽管只用了简单的特征模板,但对于人名地名,F-measure在90%左右,机构名87%左右.
其他文献
树库的构建是语料库语言学的重要组成部分。本文提出构建一种全新的汉语树库-依存图库.依存图表示可以突破以往树结构表示的局限,更好地表示词语之间的关系,对于汉语特殊结构
本文在理论分析的基础上,并通过基准实验验证,提出一种多向量表示模型,该模型在尽量不丢失新闻报道信息的情况下,对特征集合尽可能细的划分,在模型比较时采用支持向量机对多
针对中文命名实体构成的复杂性,提出了一种基于模糊支持向量机的层叠模型。基于最长次长匹配一体化分词标注结果,在底层利用支持向量机基于单字特征进行人名、简单地名和机构
当今社会处于一个信息爆炸的时代,面对日益增长的海量信息,构建知识系统进行知识管理尤为重要.概念分类是知识系统的核心,但分类的构建是一项庞大的工作,如果完全采用人工方
批量的对文本进行关键词抽取已经成为了情报检索领域相当有挑战性的工作。在本文中,一种全新的,基于文本统计类别信息熵的关键词抽取技术将被系统的介绍。此外,根据关键词,特
基于本体与框架知识表示方法,提出并实现了一种高效并且能够半自动构建领域知识层次结构与概念间关系的方法。首先知识工程师利用BABEL结构化知识表示语言对书本知识中的章节
会议
因特网已成为人们获取信息的重要途径,如何发现网站上的热点话题、跟踪和预测话题的发展对于许多领域是非常有用的。本文提出一种"话题关注度"的量化表示方法,用于描述一定时
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
混响时间和语言清晰度是衡量教室室内听闻环境的重要客观参量。通过对教室的室内环境的分析,提出了运用神经网络推算教室的声学参数方法。与其他方法比较,此方法建立了教室内
期刊