面向少量标注数据的中文命名实体识别技术研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:hesehuzi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人工智能的第三次浪潮正在改变着人类的生活。作为人工智能的一个分支,自然语言处理技术能够帮助机器分析理解人类的自然语言,是连接人类语言和机器的桥梁。而命名实体识别作为自然语言处理的基础技术之一,它的准确与否对后续任务如信息检索、推荐系统、情感分析等起着至关重要的作用。其中,中文命名实体识别由于语言的特殊性和复杂性,在命名实体识别研究工作中备受关注。高性能模型需要大量的标注训练集用于模型训练泛化,而高质量中文标注数据由于其高成本已经成为影响人工智能算法性能的最大瓶颈之一。因此面向少量标注数据的中文命名实体识别的研究工作具有重要的现实意义和应用价值。本文以少量标注数据应用场景下的中文命名实体识别为研究对象,从减少所需标注数据量和减少单位样本标注成本两方面出发,利用主动学习、迁移学习以及规则与统计混合的方法,致力于在使模型达到一定精度的条件下减少所需的标注成本。本文研究工作包括:(1)为避免基于不确定性的样本选择策略的局限性,制定一种基于不确定性和代表性的主动学习样本选择策略并应用于中文命名实体识别任务。在通用和领域语料上充分对比几种不同样本选择策略在提升模型泛化能力方面的作用。(2)提出一种结合预训练和主动学习的中文命名实体识别方法。以BERT(Bidirectional Encoder Representations from Transformers,基于双向 Transformer的编码表示)预训练语言模型为基础,本文提出BERT-CRF模型,结合CRF(Conditional Random Field,条件随机场)的强特征融合能力和标签约束性进行中文命名实体识别,并基于主动学习进一步减少所需标注数据量。通过对比实验证明该方法在减少标注数据量方面的有效性。(3)提出一种面向无标注数据的中文命名实体识别框架,充分利用已有的公开通用数据集与模型,结合基于规则和词表的方法进行中文命名实体识别,并对实体识别结果进行合并。利用该框架能够自动生成预测标签,辅助人机交互标注过程。通过实验证明该方法在减少同样数量标注工作所需投入成本方面的实用性。
其他文献
为保障动物产品质量安全和公共卫生安全,我部组织开展了部分兽药的安全性评价工作。经评价,认为洛美沙星、培氟沙星、氧氟沙星、诺氟沙星4种原料药的各种盐、酯及其各种制剂
背景与目的:探讨不同浓度的葡萄籽提取物(GSE)对老龄大鼠抗氧化的作用。材料与方法:取wistar大鼠40只,设葡萄籽提取物0.1、0.5、2.5g/kg3个剂量组和1个溶剂对照组,每组10只,灌胃
现代远程教育具有方便快捷、内容丰富等优势,开展农村党员干部现代远程教育,是党中央着眼于加强农村党的建设、建设社会主义新农村以及构建社会主义和谐社会而作出的一项重要
随着新课改的深入,高中数学的教学地位日益提升,智慧课堂应运而生,作为一种新型高效的教学手段服务于课堂,给教学带来崭新的气象.在这一背景下,就要突出主体,充分发挥学生能
介绍浮运水闸应用条件、设计特点,分析番禺现有浮运水闸破坏原因和存在问题以及今后设计中需注意的问题。
生命认知是儿童生命教育的重要组成部分。本文结合研究实践,将四大生命想象与种养活动进行有机整合,试图探索一条适宜幼儿园开展的生命认知教育教学途径。
随着信息化教学的不断深化,在我国大力推崇中职教育信息化的背景下,中职基础会计信息化教育作为中职教育信息化的关键构成,基础会计信息优质资源是开展信息化教学的物质基础,
目的探讨杜仲皮与叶的最佳采收期.方法通过对杜仲皮和叶在不同季节总浸出物含量及有效成分的测定,比较在不同季节的差异.结果不同季节的杜仲皮其浸出物总量及有效成分没有显
<正>加纳体育场、刚果布机场、俄罗斯伏尔加河水塔……东方雨虹海外工程案例已成百上千。然而,正如岩谷英昭先生所言,"中国一直提供一些没有名字的好东西。"这句话的语境特指
<正>打开政和县地图,可以看到政和西瘦东肥,犹如公鸡似的脖子细长而身体圆硕。因了这长与圆,1749平方公里县域竟与闽东、闽北、浙南七县(市)接壤,有着漫长的边界线。县境内鹫