低资源场景下面向雷达及作战体系领域的嵌套命名实体识别研究

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:hongnanjing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在雷达及作战体系领域,从非结构化情报文本中抽取雷达及武器装备实体是构建电磁辐射源知识图谱的基础工作之一。由于领域的特殊性,情报文本中存在大量的嵌套结构。嵌套命名实体识别(Nested Named Entity Recognition,NNER)指自动从无结构文本中提取出预定义语义类型的嵌套命名实体,获取丰富的实体及实体内部之间的语义关系信息。当前的大多数NNER模型都假设有充足的训练样本进行训练。但是在雷达及作战体系领域中,由于领域特殊性、数据敏感性和高标注成本,真实场景无法访问到足够多的无标签领域数据,领域公开标注数据集鲜见,知识库或者领域词典等辅助数据匮乏,因此面向雷达及作战体系领域的NNER面临着低资源挑战。本文针对雷达及作战体系领域的特殊性,研究低资源场景下NNER问题,主要贡献如下:(1)针对无标签领域数据缺乏的问题,提出了两种雷达及作战体系领域的数据增广算法:单程数据自动选择算法SADS(Single-pass Automated Data Selection algorithm)和基于BERT的标签感知上下文增强算法BBLCA(BERT Based Label-aware Contextual Augmentation algorithm)。SADS 算法通过对领域数据集增量聚类来学习领域数据分布特征,接着在相似领域数据上均衡采样,最终获得样本类别均衡的全新领域数据。BBLCA算法基于chinese-BERT-wwm预训练模型,在BERT的编码层输入中将本文的文本生成任务中不重要的“段嵌入层”替换为“标签层”。接着以词语为单位使用掩码语言模型随机遮掩、插入和删除掩码,并预测每个掩码位置的词语,最终获得标签感知的新领域数据。上述两种算法分别被应用在课题组的任务数据集RadarCorpus和相似领域数据集RadarPatentCorpus上,获得了大量语义语法正确的无标签领域数据。实验结果表明,SADS和BBLCA算法获得的无标签领域数据丰富了训练样本多样性,提升了模型性能。(2)针对标签数据不足的问题,本文基于自训练方法提出了 NNER模型-基于差异化多模型协同训练的嵌套命名实体识别模型NNER-DMCT(Nested Named Entity Recognition based on Differentiated Multi-model Cooperative Training),为无标签领域数据自动生成词级别标签。NNER-DMCT模型选用了 BERT-CRF、BERT-SPAN和BERT-TPLinker-NNER三个模型框架,利用本文提出的BL-Tri-training算法进行多模型差异化协同训练来获得多个基学习器,通过基学习器分别对无标签文本进行预测,最后基于多数投票机制对预测结果进行集成,避免了因单一视图导致的歧义性错误。该模型在获得的无标签领域数据上进行验证,实验结果有力证明了 NNER-DMCT模型的有效性。(3)基于NNER-DMCT模型自动标注获得的伪标签数据集,构建了低资源场景下的NNER模型-基于伪标签学习的边界感知跨度表示神经网络模型BASRN-PL(Boundary-Aware Span Representation Neural model based on Pseudo-label Learning),学习伪标签数据的知识并考虑了伪标签数据中的噪声影响。该模型使用动态可学习的权重,使得模型能够充分学习到原始任务数据和正确的增广任务数据信息。此外,模型使用了一个双向LSTM模型和自注意力机制对数据表示进行了增强。通过与主流的NNER模型进行对比,实验结果表明BASRN-PL模型能够较好地学习伪标签数据集的信息,并获得较优的模型效率。
其他文献
在日渐复杂和残酷的商业竞争中,卖方市场向买方市场的转变是每一家B2B企业需要思考并随之转型的趋势。对于B2B的企业来说,客户资源就是企业发展的根本命脉。同时,随着企业之间的产品逐渐同质化,客户需求也发生了非常大的变化,慢慢地从产品使用层面向购买过程和满足感的层次转变。跟随着客户需求的变化,企业也从产品之间的较量,过渡到客户体验的竞争,并开始意识到自身内部协调的效率和竞争力,直接影响客户购买过程的体
传播研究物质转向以及对流动性问题的关注,为中华文化对外传播提供更多理论和实践探讨的路向。本文试图超越媒体中心主义视角,通过理论辨析和参与式观察等方法,从人的跨国流动、个体跨文化交流中的具身问题以及符号与互动仪式几个方面,揭示个体、流动、身体以及符号等问题如何在理论和实践上拓展了对外传播研究的议程和路径,尤其关注个体流动和具身经验构建的文化传播场景对传播符号与物质之间“离散”关系的重新聚合,及其在对
目的:观察生脉饮加味方治疗气阴两虚型2型糖尿病的临床疗效。方法 :将收治的60例气阴两虚型2型糖尿病患者随机分为治疗组和观察组各30例,对照组给予西医常规治疗,观察组在对照组基础上给予生脉饮加味方治疗。经治12周,观察两组患者治疗前后空腹血糖、餐后2h血糖及糖化血红蛋白等指标改善情况,评价临床疗效。结果 :治疗组总有效率为90.0%(27/30),显著高于对照组的50.0%(15/30),两组临床
随着互联网的高速发展与普及,大量的文字信息以图像形式在互联网平台上传播,这些文字中蕴藏着大量信息,如何从海量的文字图像数据中识别出文本并从中提取出有价值的信息已经成为一个亟待解决的问题。对于上述问题,目前通常基于深度学习技术对文本图像进行处理,使用基于深度学习的文本识别模型识别出图像中的文字信息,而后使用命名实体识别模型抽取文本中受关注的信息对象,可以有效对图像中的文本进行判别和分析。不同于英文单
随着雷达探测技术的发展以及电磁污染的日益严重,研制高效、轻质的电磁波吸收材料具有重要意义。碳纳米管具有吸收强、频带兼容性好、形态结构可控、质量轻、导电性可调等优点,是最具发展潜力的吸波材料之一。综述了碳纳米管/高分子有机物复合吸波材料、碳纳米管/磁性金属复合吸波材料、碳纳米管/铁氧体复合吸波材料以及碳纳米管/其他碳系吸波材料的制备方法和吸波性能,并对碳纳米管复合吸波材料未来的发展方向进行了展望。
补脑膏治愈急性脊髓炎1例李妍怡,夏永潮甘肃省中医医院730050苗某,女,37岁。因双下肢痿软无力6天,伴小便潴留于1992年3月30日住院。患者于1992年3月16日曾患上感,口服“感冒通”等药后治愈。8天后出现胸背部疼痛,并见双下肢无力,在当地卫...
期刊
蒙古族历史作为中华民族传承千年的文化瑰宝,是人类文明的重要精神财富。蒙古族历史书籍作为保存和记录蒙古族历史的主要载体,对蒙古族历史有着重要的意义。近年来,推荐技术的发展为用户获取个性化推荐服务提供了便捷。然而由于对记载民族文化书籍的信息化研究极少,蒙古族历史书籍领域缺乏用户阅读记录,导致无法直接利用单域推荐算法为用户进行书籍推荐。本文将蒙古族历史书籍领域缺乏用户相关信息的推荐场景定义为用户“零/低
本文进一步从斜压适应变化和正压适应变化的相互作用讨论了对系统发展的加速度的影响,指出能造成扰动不稳定发展的关键在于具有和发展方向相一致的加速度。当地球自转参数随纬度变化(即β)不为零时,它的作用将造成一个和发展方向相反的加速度。只有当斜压适应变化和正压适应变化造成的加速度大于β的抑制作用时,扰动才能不稳定发展,否则只能出现中性扰动。 对于中性的超长波,它的斜压部分(或温度场)是以近于平均西风U2的
期刊
针对水性油墨黏度测量方法存在操作复杂、主观性强等问题,利用可见/近红外光谱分析技术结合化学计量学方法,建立水性油墨黏度预测模型,实现水性油墨黏度的快速无损检测。首先,利用微型光纤光谱仪采集水性油墨样本的反射光谱;再通过比较不同预处理方法对原始光谱数据的预处理效果,分别基于原始全光谱及预处理后的光谱数据构建水性油墨黏度的偏最小二乘回归(PLSR)和主成分回归(PCR)预测模型;最后,将预处理后的光谱
<正>公益劳动是直接服务于公益事业、不取报酬的劳动,其目的在于培养学生为人民服务、为公众谋利益的良好思想品德,推动学生接触社会,深入生活,参加各种社会实践,形成良好社会风尚,是劳动教育的重要内容。在幼儿园阶段,公益劳动教育存在教育情境单一化,教育内容固定化,教育方法脱离幼儿的一日生活等问题。我园深化劳动教育的内涵,充分利用自然环境和社会文化资源,扩展幼儿的劳动实践空间,以“畔畔益站”公益劳动项目,
期刊