面向中文NER的字符级与片段级模型的融合研究

来源 :南京师范大学 | 被引量 : 0次 | 上传用户:fxl207111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体识别是自然语言处理的一项基础任务,目的在于识别文本中的命名实体。不同于英文文本中每个单词都被空格隔开,中文文本的字符序列是连续的。因此,中文命名实体识别任务一般分为两类:字符级模型与词级别模型。大部分研究工作都集中在字符级模型,即把命名实体识别看作字符序列标注任务。但是,在我们的研究中发现,字符表征往往无法充分利用词级别的信息,来判断命名实体。为了解决这个问题,本篇论文做出以下工作:1.在传统中文表征的基础上,提出一种新的中文表征方法——在字符级信息中充分结合词信息应用在中文命名实体识别任务上。对于字级别信息的充分表征,对词级别语义信息的充分利用,相比于仅仅字符级模型,新的模型在中文命名实体识别上的效果得到明显提高。2.提出一种基于片段搜索的命名实体识别模型。该模型区别于字符模型与词模型,可以利用词的信息而不受分词误差的困扰。模型从片段的整体表征出发,充分利用实体边界特征信息以及实体内部特征信息,以提升模型识别实体的能力。3.提出一种基于字符模型与片段模型的融合模型。以片段级模型为基础框架,将字符级表示融入到片段级表示之中。通过对两种中文表征方式的结合,新的模型能够提取出复杂且具有代表性的特征,以用在中文命名实体识别任务中。实验证明,融合模型的性能要好于字符模型与片段模型。
其他文献
土传病害是指土壤中的真菌、细菌、线虫及病毒等植物病原体在条件适宜的情况下,以土壤作为媒介,从作物的根部或茎部侵害作物引起的一类植物病害,常对农业生产造成严重的影响
本文以具有杀线虫活性的氮杂双环类5-HT3受体拮抗剂MDL72222为先导,通过引入农药活性基团1,3,4-噻二唑基,设计合成了 28个含氮杂双环噻二唑腙类化合物和29个含氮杂双环噻二唑
大豆分离蛋白(SPI)表面含有活性官能团,因其具有生物相容、可降解且无毒等优点,已被广泛应用于食品、生物医学等领域。但其水溶性较差且不易形成凝胶,限制了其应用领域。小分子
原子和离子能级的自然辐射寿命、跃迁几率和振子强度等辐射参数是等离子体物理、原子物理和天体物理等研究领域中重要的基本数据。铁峰元素和稀土元素在炽热恒星、化学特殊星
高端精密数控机床已经成为当代工业的基础,提高机床加工精度的需求持续上升,大量研究表明热误差是造成加工精度下降的关键因素。通常采用热误差预测建模,然后输入与热误差大
本翻译实践报告的源文本节选自凯莉丝·赫钦森(Karise Hutchinson)的《领导力与小企业:故事的力量》一书中的第二章和第三章。凯莉丝·赫钦森在小企业发展的背景下审视了“故事讲述”在领导力中发挥的重要作用。在中国加快发展实体经济、促进大中小企业融通发展的时代背景下,该书对中国小企业在优化建设战略领导力方面具有一定的借鉴意义和实用价值。本翻译实践报告主要包括四个部分。第一部分为翻译任务描述,
作为当代文坛中杰出的苏格兰女作家,阿莉·史密斯在小说中常聚焦于当代社会中个体的生存现状,揭示人物内心的焦虑,其小说中的多重主题和独特的叙述实验创新手法也备受文学界
目的:本文通过分析老年(年龄≧60岁)射血分数保留的心衰(HFPEF)患者超声心动图的表现特点,探讨诊断老年HFPEF患者的超声心动图多参数评价指标。方法:回顾性分析2013年9月至20
共享经济是近年来比较火热的词汇,2016年在国内迅猛发展的共享单车便是共享经济的代表。共享单车因其随取随用、绿色出行等特点已经成为了出行者重要的交通选择之一。同时共享单车也成为了解决居民出行最后一公里问题的重要工具。共享单车的出现可能会对其他交通方式的运转产生一定的影响,因此本文以“共享单车对轨道交通客流影响分析”为题,探究共享单车的出现对于轨道交通客流的影响情况。本文首先对共享单车和轨道交通的发
本文通过优化巨大芽孢杆菌(Bacillus megaterium)L2高产抗菌活性成分发酵培养基及最佳发酵条件,并对该菌物质成分进行了分离纯化、化学结构鉴定,对得到的LE4-5组分进行了抑菌活