论文部分内容阅读
命名实体识别是指识别出句子中具有特定含义的名词,它是信息抽取、自动问答、机器翻译等自然语言处理任务的基础工作之一。手机3D动画自动生成技术由陆汝钤院士于2008年提出,是全过程计算机辅助自动生成动画技术在手机短信领域的应用。动画的自动生成需要以短信内容作为指导,作为对短信内容进行理解的重要部分,命名实体识别是手机3D动画自动生成系统的一项基本任务。手机3D动画自动生成系统要求从短信文本中抽取出的信息可由动画进行表示,因此,本文主要研究短信文本中可动画化的几种特殊类型命名实体的识别问题,如餐馆名称、购物场所名称、体育场馆名称、政府机构名称和学校名称,并借鉴已有的命名实体识别技术来设计特殊类型命名实体识别的方法。然而短信文本篇幅短小,语言风格随意,特殊类型命名实体本身开放性较强,并且目前并无特殊类型命名实体识别的相关工作,可利用的语料库等资源较少,这些因素都给本文的工作带来了一定的难度。
本文首先提出规则与隐马尔可夫模型(Hidden Markov Model,HMM)相结合的方法来进行餐馆名称的识别,在观察值中引入了对词性、特征词和词义信息的应用,使用我们利用爬虫技术构建和标注的语料库进行训练和测试,并使用从实体名称中总结出的正规则和从HMM模型的错误识别结果中总结出的反规则对HMM的识别结果进行补充和修正。其次,本文设计了一个规则与条件随机场(Conditional Random Fields,CRF)模型相结合的识别方法,针对餐馆名称的构成规律设计模板,并使用相同的语料库进行了训练和测试。最后,本文采用基于规则的方法对每一种特殊实体类型进行识别,在构建实体名称集合和特征库后通过从大量实体名称中自动抽取的方式获取规则,并将每一条规则在语料库中进行测试,将准确率大于一定阈值的规则放入规则库。
在每一种方法的研究过程中,我们都进行了测试实验,其中规则与HMM模型相结合的方法识别的准确率、召回率、F值分别为79.8.9%、86.6%、83.11%;改进后的CRY模型识别的准确率、召回率、F值分别为86.76%、73.71%、79.70%;基于规则的方法识别的准确率、召回率、F值分别为85.53%、32.83%、47.45%。基于规则的方法和CRF模型识别的准确率较高,规则与HMM相结合的方法识别的召回率较高。
本文分别将以上几种方法应用到了特殊类型命名实体识别的工作中,对每一种方法识别的优势和劣势进行了分析,并对它们的识别性能进行了对比。这些方法的实现为3D动画自动生成系统识别出了大量可动画化的命名实体,并为以后更多类型的可动画化的特殊类型命名实体的识别工作提供了参考。