基于预训练语言模型的军事命名实体识别方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:s_ants
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息化时代的来临,军事文本信息出现“过载”的问题,这为情报分析人员增加了沉重的负担。利用自然语言处理中的信息抽取技术智能地提取其中的有价值信息并呈现出来,是一种备受瞩目的解决方案。而命名实体识别技术作为信息抽取领域中的基石,其重要性不言而喻。本文立足于军事命名实体识别任务,对基于预训练语言模型的深度学习方法进行研究。因为军事领域相关的语料集匮乏,出于研究需要,本文首先以军事新闻文本为数据源构建了一个军事命名实体识别数据集。该数据集规模为90万字,涵盖人名、机构组织、地点、时间、职级职务与武器装备六类命名实体。后续,本文围绕这一数据集展开若干方法的实验研究与对比分析。本文以BiLSTM-CRF为基准模型,分别构建了BERT-CRF模型与BERTBiLSTM-CRF模型,并对其性能表现进行了对比。实验表明,BERT-BiLSTM-CRF模型的表现最优,BERT模型与BiLSTM模型可以协同互补,相得益彰。BERTBiLSTM-CRF模型在所有实体上的总体F1值为90.66%,相比BiLSTM-CRF模型提高了6%。BERT模型是以字向量为基础的,并未考虑到词信息。如何将词信息恰当地融入基于字向量的模型中起到增益的效果也是颇具潜力的研究方向。本文通过将BERT模型与FLAT(Flat-Lattice Transformer)模型结合的方式验证了这种思想在军事命名实体识别领域的有效性。然后,通过对BERT-base、BERT-wwm与Ro BERTa模型的对比实验发现,基于BERT-wwm与FLAT结合的模型整体表现最优,在所有实体上的总体F1值为91.14%。
其他文献
车辆轨迹预测已经成为众多领域的热点研究问题。对于个体出行者而言,车辆轨预测可以辅助优化出行者的出行路线,做出最佳出行决策,规避交通拥堵路段,提高出行效率,降低出行成本,同时也能提升出行者的驾乘体验。对于交通系统而言,车辆轨迹预测可以提前感知未来一段时间内的交通运行状态和发展趋势,为交通系统的运行状态优化提供依据,从而缓解整个交通系统的拥堵问题,促进交通系统高效、健康、可持续地发展。与此同时,随着城
在活体细胞成像领域,光学显微技术以其无损、非接触成像的性质在众多方法中脱颖而出,而光学衍射极限的存在限制了其成像分辨率。为了实现对更小尺寸细胞及亚细胞级别生物样品的观察,提高光学显微技术成像分辨率具有重要意义。共焦显微技术在轴向层析能力方面具有独特的优势,但其横向分辨率仅限于普通宽场显微技术的1.4倍,现有改进方法都存在诸多局限性。本课题针对共焦显微技术横向分辨率低的问题,从空间谱估计理论角度出发
组合测试是实现高覆盖率测试的有效方法,可以用尽可能少的测试用例实现高的测试覆盖率,在组合测试中,在已知部分测试用例集运行结果时,如何能够根据引发系统故障的测试用例进行快速有效的定位故障是一个重要的问题,研究组合测试快速故障定位技术有助于帮助测试人员找寻故障来源并进行有效的修正以实现被测系统的改进。嵌入式软件的输入具有时序特性,包括输入参数次序以及参数的注入时刻,其中注入时刻是包含输入次序的,输入次
在传统伺服系统设计过程中,控制器设计的可配置指标少,不能完整或准确反映机构的质量及约束特性,造成控制器设计与原理样机匹配度不高,无法实现控制器或机构的最优化设计。同时,传统设计方法设计流程迭代周期长,且可承受的迭代次数有限,造成设计效率不高,试验成本高昂。本课题将依靠联合仿真技术完成导弹伺服系统的仿真,可以帮助设计人员摆脱物理样机的束缚,降低实验的成本,可以较快地完成对于导弹伺服系统的设计与优化。
近年来,人脸识别一直是模式识别、图像处理和机器视觉等领域的研究热点之一。素描人像识别作为一个难题,一直以来没有一个非常有效的解决方案,它是依据专业画家手绘的素描人像进行的人脸识别,素描人像识别主要在公安司法案件侦破和寻找走失人员中进行应用,在案件没有犯罪嫌疑人或走失人员的确定照片时,通过对素描人像图与人脸照片的比对,它可以帮助调查人员缩小目标范围。现阶段在该方面的研究绝大多数是将照片转化为类素描的
计算机技术的飞速发展对各行业的研究和生产起到了巨大的推动作用,而计算机编程作为其中不可或缺的工具被越来越多地投入生产和使用。出于对大量计算机程序生成和维护的需要,代码智能应运而生,代码自动修复是其中的一个重要分支。代码自动修复旨在在没有人工干预的条件下,利用计算机程序自动修复代码中存在的语法或语义错误。随着深度学习的发展,研究者们出于自然语言和编程语言的共通性,利用自然语言处理方法解决代码自动修复
红外小目标检测系统在军事、国防领域中具有重要的战略应用价值,因此在红外小目标检测系统研发过程中需要对其进行充分的模拟测试来确保其性能。由于数据的敏感性,可公开获取的包含红外小目标的测试图像数据源较少,而大量的测试数据却是研究红外小目标检测算法必不可少的。除此之外,对于红外小目标检测结果的评估也缺乏统一标准,不能满足实时评估分析和应用的需求。针对上述问题,本课题将研制一套针对红外小目标检测系统的测试
随着红外成像技术的不断发展、前沿的新技术对红外成像系统开发设计上的优化,红外热像仪在军事、工业、生活各个领域的应用场景也在不断拓宽。由于2020年新型冠状病毒引起的肺炎疫情的迅速扩散,利用红外热像仪在公共场所进行精准的体温监测成为了相关领域的重点研究内容,红外热像仪性能的好坏将直接影响体温监测的准确性,对疫情防控工作至关重要。因此对于用于体温监测的红外热像仪,建立全面、科学的性能评估模型,准确预测
随着国家对工业排放超净治理的持续推进,以火电厂、集中供热企业为主的工业燃煤企业相继完成大气污染超低排放改造,但大气污染形势仍然严峻,尤其以雾霾为特征的区域性大气环境问题依然突出。根据相关数据显示,在我国北方农村地区低效散烧燃烧和秸秆野外焚烧排放的污染物占雾霾主要成分总量的20%以上,已成雾霾天气的重要原因之一。因此生物质能热电联产作为既能解决农作物秸秆野外焚烧造成的污染问题,又能作为农村地区提供高
城镇化与工业化进程在推进我国经济快速发展的同时,亦对自然环境造成了较为突出的伤害,其中,较为突出的一点便是带来了当前的较为严重的各类水污染问题。从2007年开始,我国政府大幅度提高对于环保行业的投入,由此引发了环保行业的爆炸式发展。伴随行业的高速发展,进入这一领域的企业也越来越多,尤其是近年来建筑类国企、央企以及国外资本的强势介入,正对我国民营环保企业的生存空间构成了强烈挑战。为此,如何为企业构建