面向少量标注数据的中文命名实体识别技术研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户：hesehuzi

【摘要】

：

人工智能的第三次浪潮正在改变着人类的生活。作为人工智能的一个分支,自然语言处理技术能够帮助机器分析理解人类的自然语言,是连接人类语言和机器的桥梁。而命名实体识别作

【作者】

：

孔玲玲

【出处】

：

浙江大学

【发表日期】

：

2004年期

【关键词】

：

中文命名实体识别主动学习迁移学习 BERT

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

人工智能的第三次浪潮正在改变着人类的生活。作为人工智能的一个分支,自然语言处理技术能够帮助机器分析理解人类的自然语言,是连接人类语言和机器的桥梁。而命名实体识别作为自然语言处理的基础技术之一,它的准确与否对后续任务如信息检索、推荐系统、情感分析等起着至关重要的作用。其中,中文命名实体识别由于语言的特殊性和复杂性,在命名实体识别研究工作中备受关注。高性能模型需要大量的标注训练集用于模型训练泛化,而高质量中文标注数据由于其高成本已经成为影响人工智能算法性能的最大瓶颈之一。因此面向少量标注数据的中文命名实体识别的研究工作具有重要的现实意义和应用价值。本文以少量标注数据应用场景下的中文命名实体识别为研究对象,从减少所需标注数据量和减少单位样本标注成本两方面出发,利用主动学习、迁移学习以及规则与统计混合的方法,致力于在使模型达到一定精度的条件下减少所需的标注成本。本文研究工作包括:(1)为避免基于不确定性的样本选择策略的局限性,制定一种基于不确定性和代表性的主动学习样本选择策略并应用于中文命名实体识别任务。在通用和领域语料上充分对比几种不同样本选择策略在提升模型泛化能力方面的作用。(2)提出一种结合预训练和主动学习的中文命名实体识别方法。以BERT(Bidirectional Encoder Representations from Transformers,基于双向 Transformer的编码表示)预训练语言模型为基础,本文提出BERT-CRF模型,结合CRF(Conditional Random Field,条件随机场)的强特征融合能力和标签约束性进行中文命名实体识别,并基于主动学习进一步减少所需标注数据量。通过对比实验证明该方法在减少标注数据量方面的有效性。(3)提出一种面向无标注数据的中文命名实体识别框架,充分利用已有的公开通用数据集与模型,结合基于规则和词表的方法进行中文命名实体识别,并对实体识别结果进行合并。利用该框架能够自动生成预测标签,辅助人机交互标注过程。通过实验证明该方法在减少同样数量标注工作所需投入成本方面的实用性。

其他文献

农业部决定在食品动物中停止使用洛美沙星等4种兽药(中华人民共和国农业部公告第2292号)

为保障动物产品质量安全和公共卫生安全,我部组织开展了部分兽药的安全性评价工作。经评价,认为洛美沙星、培氟沙星、氧氟沙星、诺氟沙星4种原料药的各种盐、酯及其各种制剂

期刊

食品动物培氟沙星洛美沙星中华人民共和国农业部

葡萄籽提取物对老龄大鼠MDA、GSH-Px、SOD的影响

背景与目的：探讨不同浓度的葡萄籽提取物（GSE）对老龄大鼠抗氧化的作用。材料与方法：取wistar大鼠40只,设葡萄籽提取物0.1、0.5、2.5g/kg3个剂量组和1个溶剂对照组,每组10只,灌胃

期刊

葡萄籽提取物抗氧化作用MDAGSH-PxSOD

加强农村党员干部现代远程教育工作的思考——基于瓦房店市的调研分析

现代远程教育具有方便快捷、内容丰富等优势,开展农村党员干部现代远程教育,是党中央着眼于加强农村党的建设、建设社会主义新农村以及构建社会主义和谐社会而作出的一项重要

期刊

农村党员远程教育

构建智慧课堂,引领思维发展

随着新课改的深入,高中数学的教学地位日益提升,智慧课堂应运而生,作为一种新型高效的教学手段服务于课堂,给教学带来崭新的气象.在这一背景下,就要突出主体,充分发挥学生能

期刊

高中数学智慧课堂策略

番禺浮运水闸设计

介绍浮运水闸应用条件、设计特点，分析番禺现有浮运水闸破坏原因和存在问题以及今后设计中需注意的问题。

期刊

浮运水闸应用条件设计特点番禺

种养活动视域下儿童生命认知的内容研究

生命认知是儿童生命教育的重要组成部分。本文结合研究实践,将四大生命想象与种养活动进行有机整合,试图探索一条适宜幼儿园开展的生命认知教育教学途径。

期刊

种养活动生命认知内容研究儿童生命教育

浅析中职基础会计信息化教学

随着信息化教学的不断深化,在我国大力推崇中职教育信息化的背景下,中职基础会计信息化教育作为中职教育信息化的关键构成,基础会计信息优质资源是开展信息化教学的物质基础,

期刊

中职基础会计信息化教学方法

杜仲采收期的实验研究

目的探讨杜仲皮与叶的最佳采收期.方法通过对杜仲皮和叶在不同季节总浸出物含量及有效成分的测定,比较在不同季节的差异.结果不同季节的杜仲皮其浸出物总量及有效成分没有显

期刊

杜仲采收期实验研究

用卓越品质重塑中国制造

<正>加纳体育场、刚果布机场、俄罗斯伏尔加河水塔……东方雨虹海外工程案例已成百上千。然而,正如岩谷英昭先生所言,"中国一直提供一些没有名字的好东西。"这句话的语境特指

期刊

中国制造东方雨虹原材料

鹫峰山下风展红旗如画——政和革命烽火回望

<正>打开政和县地图,可以看到政和西瘦东肥,犹如公鸡似的脖子细长而身体圆硕。因了这长与圆,1749平方公里县域竟与闽东、闽北、浙南七县(市)接壤,有着漫长的边界线。县境内鹫

期刊

黄立贵军分区根据地农民协会曾镜冰闽东北红旗如画大刀会鹫峰山

面向少量标注数据的中文命名实体识别技术研究

与本文相关的学术论文