面向手机3D动画自动生成的中文命名实体识别的研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:ynshisss
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体识别是指识别出句子中具有特定含义的名词,它是信息抽取、自动问答、机器翻译等自然语言处理任务的基础工作之一。手机3D动画自动生成技术由陆汝钤院士于2008年提出,是全过程计算机辅助自动生成动画技术在手机短信领域的应用。动画的自动生成需要以短信内容作为指导,作为对短信内容进行理解的重要部分,命名实体识别是手机3D动画自动生成系统的一项基本任务。手机3D动画自动生成系统要求从短信文本中抽取出的信息可由动画进行表示,因此,本文主要研究短信文本中可动画化的几种特殊类型命名实体的识别问题,如餐馆名称、购物场所名称、体育场馆名称、政府机构名称和学校名称,并借鉴已有的命名实体识别技术来设计特殊类型命名实体识别的方法。然而短信文本篇幅短小,语言风格随意,特殊类型命名实体本身开放性较强,并且目前并无特殊类型命名实体识别的相关工作,可利用的语料库等资源较少,这些因素都给本文的工作带来了一定的难度。   本文首先提出规则与隐马尔可夫模型(Hidden Markov Model,HMM)相结合的方法来进行餐馆名称的识别,在观察值中引入了对词性、特征词和词义信息的应用,使用我们利用爬虫技术构建和标注的语料库进行训练和测试,并使用从实体名称中总结出的正规则和从HMM模型的错误识别结果中总结出的反规则对HMM的识别结果进行补充和修正。其次,本文设计了一个规则与条件随机场(Conditional Random Fields,CRF)模型相结合的识别方法,针对餐馆名称的构成规律设计模板,并使用相同的语料库进行了训练和测试。最后,本文采用基于规则的方法对每一种特殊实体类型进行识别,在构建实体名称集合和特征库后通过从大量实体名称中自动抽取的方式获取规则,并将每一条规则在语料库中进行测试,将准确率大于一定阈值的规则放入规则库。   在每一种方法的研究过程中,我们都进行了测试实验,其中规则与HMM模型相结合的方法识别的准确率、召回率、F值分别为79.8.9%、86.6%、83.11%;改进后的CRY模型识别的准确率、召回率、F值分别为86.76%、73.71%、79.70%;基于规则的方法识别的准确率、召回率、F值分别为85.53%、32.83%、47.45%。基于规则的方法和CRF模型识别的准确率较高,规则与HMM相结合的方法识别的召回率较高。   本文分别将以上几种方法应用到了特殊类型命名实体识别的工作中,对每一种方法识别的优势和劣势进行了分析,并对它们的识别性能进行了对比。这些方法的实现为3D动画自动生成系统识别出了大量可动画化的命名实体,并为以后更多类型的可动画化的特殊类型命名实体的识别工作提供了参考。  
其他文献
近年来,在中间件技术的基础上,结合软件复用和面向对象的思想,构件化设计和开发作为一种提高软件生产率和软件质量的有效途径,并在实践中得到广泛应用。目前,基于构件的软件
干扰是影响移动通信网络运行的关键因素,对通话质量、掉话、切换、拥塞均有显著影响。如何降低或消除干扰是网络规划、优化中的一个关键问题。在目前2/3G网络干扰日趋严重并
随着计算机、通信和多媒体技术的高速发展,特别是互联网络的出现和大范围普及,数据图像呈爆炸式增长趋势,使图像资源数量迅速增加,过去基于关键字的分类技术显然不能满足人们
OA(Office Automation:办公自动化)是企业信息化建设的重要组成部分。办公自动化系统的发展恰好与数据、信息和知识的演变同步,即以数据为主要处理内容的第一代办公自动化发展
Android版本的频繁更新是导致Android生态碎片化问题的一个重要原因。为了使Android应用可以在多个Android版本上使用,应用程序开发者不得不为其开发的应用进行兼容处理。然而
SaaS(软件即服务)是近几年新起的一种新的软件交付和商业模式,并且随着云计算概念的提出和普及,SaaS成为了标准的云应用层模型。多承租架构是SaaS型软件的核心实现技术,该架
数控系统中的运动轨迹控制技术是确保数控高速、高精以及高表面质量加工的关键技术,也是评价数控系统性能的重要指标。国内外相关研究机构及各大数控系统开发厂商均将其作为努
电力系统的无功优化是提高电能质量、降低网络有功损耗和保证电力系统经济安全运行的重要措施。随着社会的发展和人口的增加,电力系统的负荷急剧增加,因此对能稳定的应用到更大规模电力系统无功优化问题的新的优化计算方法的研究是有重要意义的。社会情感优化算法是一种新的模拟人类行为的群智能优化算法,本文首先对社会情感优化算法做了具体的描述:为模拟人类能够利用自身的情感准确决策的能力,社会情感优化算法构建了情感集和
在传统机器学习中,为了保证训练得到的分类模型具有高准确性和可靠性,都有两个基本的假设:(1)用于学习的训练样本与新的测试样本满足独立同分布条件;(2)必须有足够可利用的训练样
随着各个行业对计算能力需求的不断增长,云计算得到了迅猛的发展。云计算通过网络把多个成本相对较低的计算实体整合成一个具有强大计算能力的系统,将大量计算资源统一管理和调