面向小样本的半监督命名实体识别方法研究

来源 :山东工商学院 | 被引量 : 0次 | 上传用户:a0701302
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体识别是自然语言处理的一项基础任务,其目的是识别文本数据中人名、地名、机构名等类型的实体。命名实体识别效果对后续的关系抽取、机器翻译、知识图谱等任务有很大影响。近年来,深度学习被广泛用于命名实体识别任务,并取得了很好的效果。然而,现有的深度学习方法大多为有监督的训练方法,在特定领域命名实体识别任务中,由于缺乏标注数据,使得依赖大量标注数据的深度学习模型难以取得优异的性能。本文从半监督集成学习和多视图学习方法入手,研究面向小样本的命名实体识别模型。主要工作包括:(1)针对小样本数据量少,单一的深度神经网络模型泛化能力弱的问题,提出了一种基于多模型协同训练的命名实体识别模型(Named Entity Recognition Model Based on Multi Model Collaborative Training,NER-MCT),利用少量标注数据训练三个基学习器,采用协同训练Tri-training算法为未标注的原始数据进行标注,并通过加权投票法进行模型集成,从而提高模型鲁棒性。实验结果表明,在小样本命名实体识别任务中,NER-MCT模型能够有效地利用大量的无标记语料数据提高模型性能。(2)在NER-MCT模型的基础上,提出一种改进的Tri-training算法。在样本选择过程中,提出了重复标记样本选择策略,通过构造一致性评价函数和设置合理的阈值,在学习过程中迭代地扩充训练集。该策略能有效避免引入噪声数据,将高置信度样本扩充到训练样本集中,提高了命名实体识别的效果。(3)针对特定领域小样本命名实体识别任务中数据特征不足的问题,提出了一种多视图特征融合的命名实体识别模型(Named Entity Recognition Model Based on Multi View Feature Fusion,NER-MVF)。该模型利用两种不同的神经网络提取多视图特征,并将特征向量输入到条件随机场预测标签序列。与现有的序列标记模型不同,NERMVF模型不仅考虑了邻域标记之间的相关性,而且利用了多视图学习中一致性和互补性原理。实验证明,NER-MVF模型在不增加模型复杂性的基础上能有效提高命名实体识别的精度。(4)在NER-MVF模型中,受协同正则化思想的启发,提出了一种多视图特征融合算法。将不同的神经网络提取的多视图特征引入联合表示空间,并通过损失函数中的正则化项来最小化两个视图之间的距离,以防止NER-MVF模型在训练中出现过拟合现象。本文方法针对特定领域标注语料数据不足、单一模型对样本学习不充分的问题,通过改进协同训练算法和融合多视图数据特征,提升了小样本命名实体识别模型的性能。
其他文献
图像分类是计算机视觉领域研究热点之一,图像多标签学习方法更是在图像分类任务中有着广泛的应用。随着大数据时代的到来,图像数据日益猛增,由于不同领域对图像数据关注的角度不同,导致图像只标注部分的语义标签,图像所表达的语义信息不能被充分体现,即图像数据存在标签缺失。随着图像数据蕴含的信息量越来越大,对应的标签类别数目也在不断增加,对图像样本预测的可能标签集合会呈指数形式增长,导致在多标签分类过程中,面临
在新课程改革中明确指出,要以学生的全面发展为本,强调了课堂教学的目的不仅仅是要达成教学目标,更重要的是要提高课堂效率,逐渐培养学生的学科核心素养和提升综合能力。因此,对于当前不利于促进学生全面发展的课堂教学模式和方法亟需有所改变。问题导学教学模式的运用,与新课改变化的需求具有一致性。将思维导图应用于实际教学,具有帮助学生进行系统化总结知识的作用,本文将问题导学模式与思维导图结合一些共同之处,提出了
青溪花灯有着悠久的历史,2006年被公布为镇远县第一批非物质文化遗产代表作名录,2008年青溪镇被国家文化部命名为“中国民间文化艺术之乡”(花灯),2009年被公布为贵州省、黔东南州第三批非物质文化遗产代表作名录。作为青溪镇唯一的中学,青溪中学接过历史交付的文艺重担,将青溪花灯引入学校体育,不仅丰富了学校体育课程,而且实现了青溪花灯非遗的传承与发展。本研究以镇远县青溪中学学校体育引入“花灯戏”个案
光电传感器是一种能将光辐射转换为电信号的器件,在现代生产生活的各个领域均发挥着不可替代的重要作用。微纳制造技术的发展,一方面使光电传感器逐渐向微型化和低功耗化方向发展;另一方面,涌现出如基于石墨烯、钙钛矿和III-V族化合物等新兴材料制成的光电传感器。I-V测试是光电传感器性能表征手段中应用最为广泛的一种,随着光电传感器的发展,对光电传感器I-V测试提出了更高的要求。基于此,本文利用LabVIEW
教育部颁布了《关于全面深化课程改革落实立德树人根本任务的意见》,提出要研究并制订学生发展核心素养体系,深度学习项目应运而生。深度学习是核心素养落地的有效途径,既能够体现学科的育人价值,又能够彰显学科的核心素养。《普通高中化学课程标准》(2017版)提出发展化学核心素养的要求,并倡导将化学核心素养的培养落实到各学段的实践教学当中。为了适应新课改的需要,为了有效促进高中生化学核心素养的形成和发展,本课
培养学生的化学核心素养是当今化学教育教学发展与改革的必然要求。2018年,我国发布的普通高中化学课程标准(2017版)中对学生的学业内容做出了明确要求,化学学科的核心素养分成了“宏观辨识与微观探析”、“变化观念与平衡思想”、“证据推理与模型认知”、“科学探究与创新意识”、“科学态度与社会责任感”这五个维度。本文依据普通高中化学课程标准(2017版)以及有关于化学核心素养的文献分析研究,对高中生化学
由于溶解氧浓度的变化受多种因素影响,具有非线性,模糊不确定等特点,因此溶解氧浓度的精准预测是渔业养殖中的一个难题。本文以渔业养殖中养殖水质关键参数溶解氧数值为研究对象,采用智能计算和深度学习技术,构建了基于智能计算的溶解氧预测模型,具体研究如下:(1)基于ECA-Adam-RBFNN的溶解氧预测模型研究。该模型提出了一种新颖的增强聚类方法,该聚类算法利用K-means算法以及蚁群算法确定RBF神经
普通高中新课程的改革要求开展基于学生立场的建构学习、探究学习和问题解决学习,促进学生学习方式的转变,以便学生自我构建、不断提升自身的化学学科核心素养。而学历案是一种基于学生立场,强调学生自主构建或社会构建知识和经验的方案,符合新课改着力发展学生化学学科核心素养的要求。为落实学生立场的课堂教学,促进学生化学学科核心素养的发展,着重探讨了基于学科核心素养下高中化学学历案的设计与教学实践。首先对核心素养
现代社会高度依赖互联网,人们在享受着网络服务带来的便利性的同时,也面临着网络攻击带来的威胁。低速率拒绝服务(Low-Rate Denial of Service,LDoS)攻击是一种新型的网络攻击方式,具有隐蔽性强、攻击速率低和检测难度大等特点。软件定义网络(Software Defined Network,SDN)作为下一代网络的热门解决方案,解耦了数据平面和控制平面,采用软件定义的方式对网络进
基于全球化、信息化和我国当前课程改革的背景下。要求人们能够创造性地运用知识与技能来解决实际生活中所发生的问题,在各种复杂的信息和智能化环境中有效迁移处理、解决问题,需要人们具备高阶思维能力,同时也是落实核心素养的具体体现。高阶思维能力是一个人以创新能力和批判性思维能力为核心,进行问题解决的高层次认知活动过程中所表现的综合能力。界定高阶思维能力主要由问题解决能力、批判性思维能力和创新能力构成。由此,