【摘 要】
:
命名实体识别(Name Entity Recognition,NER)是指识别文本中具有特定意义的实体,主要包括人名、地名、组织机构名等,是将非结构化数据转为结构化数据的一个重要技术手段,是计
论文部分内容阅读
命名实体识别(Name Entity Recognition,NER)是指识别文本中具有特定意义的实体,主要包括人名、地名、组织机构名等,是将非结构化数据转为结构化数据的一个重要技术手段,是计算机正确理解文本信息的关键步骤,也是信息抽取、情感分析、问答系统等多个自然语言处理应用的基础任务,因此命名实体识别的研究存在着重要意义。但由于中文语言自身的特点,中文命名实体仍存在许多难点,其主要难点包括:(1)中文命名实体识别通常是基于单一模型的识别,这些模型具有各自的优缺点和局限性。(2)中文命名实体识别通常是基于词序列的识别,需要借助中文分词技术,中文命名实体识别的效果往往依赖于中文分词的准确率。本文的研究内容和主要工作包括:(1)调研了国内外命名实体识别的相关工作,总结和实现了主流的命名实体识别方法,分析和比较了这些方法的优缺点,为本文的后续工作提供了思路。(2)为了解决单一模型的局限性,本文结合了多个模型和使用多任务学习进行中文命名实体识别,该方法BiLSTM-CRF-MTL能够较好地解决单一模型的缺点,此外不需要过多的特征构造,模型通过多个相关任务进行特征学习。(3)为了解决基于词序列识别存在的问题,本文将基于字序列进行中文命名实体识别,引入基于外部语料和新词发现的词向量,同时将基于关键词提取的中文分词置信度作为特征来缓解中文分词带来的噪声。(4)为了让模型能够更好地拟合上下文和缓解标注样本较少的问题,本文提出了一种基于实体词替换的样本生成方法。本文基于1998年人民日报语料进行中文命名实体测评,对比了多个基于单一模型的识别方法以及相关文献的识别方法,实验结果表明,本文提出的方法取得了 88.79%的平均F1,相比其它方法具有较大提升。
其他文献
目的:探讨螺旋CT仿真内镜(virtual endoscopy VE)对评估上颌窦内提升前后窦底形态改变的意义。方法:对15例上颌窦内提升患者术前术后采用64排螺旋CT扫描,三维重建后仿真内镜
针对夏季蚊虫叮咬的现象,中山莱富安电子厂综合各种捕蚊技术,利用更先进的诱蚊灯及无声轴吸气方式,把蚊子诱到机前,利用风扇吸力,把蚊子吸入机内,再用电网加以捕杀。其灭蚊方
法律规定不一往往引致多样的司法导向,影响社会的安全稳定且有悖于依法治国的法治理念。有关第三人侵权而认定的工伤情形,在司法实践中审判不一。对该问题的探究主要存在替代
教学督导是学校对影响教学质量的各方面因素实施监督、检查、评价和指导,以提高教学质量的重要手段。市级电大作为河北电大成人远程教育教学系统的重要组成部分,其教学督导工
在我国广大的社会生产和生活中,民间规范大量存在已经是不争的事实。民间规范和国家法共同依存在这个社会,相互影响,相互作用。在依法治国的大前提下,弄清民间规范的含义,梳
加入WTO给我国会计业带来了机遇和动力,也意味着挑战,同时也对我国会计工作提出了更新更高的要求。因此,中国的会计应尽快地排除各种不良影响,积极参与会计国际化的进程,加强与国
<正> 灭蚊电扇意大利采兰公司生产出一种灭蚊电扇。它用风扇转动吸引方法诱捕蚊虫,当蚊虫飞近时被吸入灭蚊器,并强迫进入滞留盘,使其干燥死亡。驱蚊收音机日本科学家研制成一
背景和现状 中国是一个农业大国,农业生产中,农药的用量非常大,因为传统的喷药方式比较落后,每年造成大量的农药浪费,大量的农药使用对周围环境、人畜和地下水造成污染。温室特有
顶推施工方法起源于上世纪60年代,早期主要应用于在中小跨径混凝土梁桥。其施工占地少、对周围环境影响小,以及在跨越深谷桥梁,城市高架桥、跨线桥上的优势,使其被迅速且广泛
职业教育集团经过前期量的扩张后,开始遇到发展瓶颈的问题,即如何成为一个独立的实体进行对外交流与合作;怎样解决内部组织管理问题以提高组织成员参与的积极性等,这些问题归