基于多任务学习与融合词典的中文命名实体识别研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:spcheng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在移动互联网迅猛发展的今天,网络上每天产生的大量非结构化数据需要命名实体识别等信息抽取技术去提取其中的有效信息。命名实体识别(Named entity recognition,NER)任务的目的是识别出文本数据中特定类型的实体名称,其识别结果影响着关系抽取、文本理解、自动问答等下游自然语言处理任务的效果,因此具有非常重要的研究价值和意义。深度学习理论和技术的发展推动着命名实体识别的进步,已有研究表明,多任务学习能够在一定程度上提高深度学习模型的性能,但是经典的命名实体识别模型都只有实体识别这个单一的学习优化任务。通过研究发现在很多实体识别数据集中都存在很多不包含实体的样本,为此设计了判断样本是否包含实体的二分类任务,并且在此基础上提出了基于多任务学习的中文命名实体识别模型。该模型将判断样本是否包含实体的二分类任务的损失函数和命名实体识别任务的损失函数加权融合在一起,然后对两个任务同时进行优化。本文在Bi-LSTM和Transformer两种特征编码模型上进行了实验,实验结果表明,本文提出的基于多任务学习的命名实体识别方法在两种特征编码模型上均优于基线模型。中文不存在词语分割边界的语言特性,导致中文命名实体识别任务中会出现实体边界错误分割的问题。考虑到命名实体识别任务是一个依赖于外部知识的任务,通过引入包含词边界特征的词典信息等外部知识可以帮助提高模型的实体边界的识别能力,因此本文提出了融合词典信息的中文命名实体识别模型。该模型将词典中匹配到的词语根据字的位置信息分为四类并计算每一类词语的加权词向量,然后使用注意力机制将包含词边界信息的加权词向量融入到初始字向量中,这样能够增强字向量中的词边界信息和位置信息。本文在静态字向量和BERT预训练字向量上进行了实验,实验结果表明,融合词典的实体识别模型能够在一定程度上解决实体边界错误分割问题,提高命名实体识别的性能。
其他文献
大数据侦查是侦查机关在职权范围内,通过大数据技术对海量数据收集、比对、挖掘以收集证据和查获犯罪嫌疑人的一种专门调查工作。大数据侦查的隐蔽性、技术性、强制性等特征决定了其应归入秘密侦查这一分类中。在实践中随着全国公安机关的推广,大数据侦查在打击犯罪中显示出巨大的价值,助力案件侦破、节约司法资源。然而,大数据侦查在我国尚未有立法直接对其回应,导致公民信息的过度收集,侦查行为与公民个人信息权、隐私权、人
钠离子电池(Sodium-ionbatteries,SIBs),因其钠元素地壳储量丰富、电池开发成本低以及电池安全性高等优势,被认为是下一代锂离子电池(Lithium-ion batteries,LIBs)的潜在替代产品,在大规模储能领域具有很好的发展潜力和巨大的可预期经济效益。因此,为了满足市场需求,探索和开发具有高能量密度且长循环特性的钠离子电池电极材料是近年来储能领域的研究热点之一。过渡金属
目前,天然气冷热电三联供系统(以下简称:三联供系统)在我国研究与应用时间较短。在对其综合效益分析研究中,存在着缺乏科学、全面、客观地考虑,存在着片面针对单因素地系统效益分析评价等现象。本文通过构建一套综合效益分析体系,对三联供系统在不同运行方式下的综合效益进行研究,并以武汉市某天然气冷热电三联供能源站为实例,为同类项目的运营管理提出一些指导性建议。首先,本文论述三联供系统的工艺流程、设备选择和运行
近年来,中国保险行业快速发展,业务拓展迅速,保险资产的规模增长迅猛,对保险资金的运用及风险管理提出了更高的要求。随着保险监管机构的关注,监管力度逐渐加大,保险公司为应对政策变化、市场变化,提高投资收益,会在资金运用方面进行专业管理。与此同时,面对相应增长的风险,采取一定的投资风险管理手段,使资金运用更有效率,达到公司的收益目标。因此保险资金运用是保险公司的重点关注部分,这一部分的风险管理也成为重中
蜗轮加工机床作为蜗轮这一传动件制造的“母机”,其加工精度决定了齿轮机床、分度转台等装备的服役性能与使用寿命,因此,对于其精度的提升显得尤为重要。蜗轮加工机床制造精度受到多种误差源的影响,包括机床几何误差、热致误差、力致误差、刀具误差等,其中机床几何误差与热致误差占比最大。在探明蜗轮加工机床温度场变化与机床变形映射规律的基础上,将热致变形误差等效为机床几何误差进行建模和补偿,以实现蜗轮加工精度提升。
随着电子通信产业的飞速发展,医疗成像、雷达通信、智能家居和5G小基站等系统对数据转换器的性能要求越来越高,传统的接口技术已难以满足如今的高速数据传输需求。JESD204C协议作为JEDEC协会发布的JESD204C系列协议的最新版本,其JESD204C高速串行接口具有功耗低、引脚少、速率高的优势,并支持确定性延迟和数据检错纠错功能,因此JESD204C接口正逐渐成为数据转换器和FPGA/ASIC之
由于纳米材料具有尺寸小、比表面积大、结构特殊和反应活性高等优点,有关纳米材料在生物医学方面的报道越来越多。各种材质以及形貌的纳米材料已被开发出来,并在生物医学检测、成像及治疗研究等方面取得了巨大进展。纳米金属有机框架材料(nano metal-organic frameworks,NMOFs)以及聚多巴胺纳米颗粒(polydopamine nanoparticles,PDA NPs)作为聚合物纳米
随着5G和AI快速发展,芯片半导体行业持续走高,国内芯片市场和需求急速膨胀,但由于我国芯片自给率低,加之美国对我国的芯片制造技术的制裁,我国芯片半导体国产化迫在眉睫。随之而来的是更多芯片洁净厂房的建造和产能提升,也就意味着巨大的能源消耗提升,其中洁净厂房空调能耗是常规公共建筑的数十倍以上,而目前国内针对此类建筑的能耗分析和节能评价方法处于空白阶段,因此研究芯片洁净厂房空调系统节能运行评价对指导约束
广东省失业保险基金自运行以来,在保障失业人员生活等方面发挥着重要作用。随着广东省经济结构的不断调整,失业保险基金运行效率未随着当地经济发展水平的提高而提高,因此,仍需对基金实际运行情况进行深入研究,以更好地发挥其作用,促进社会保障制度的进一步完善。本文从广东省失业保险基金运行效率现状出发,对基金运行机制、基金运行效率现状等方面展开研究,总结当前基金运行存在问题,并结合相关数据,对基金运行效率进行评
伴随着通信技术的高速发展,迫切要求无线通信设备不断地改进更新。大容量、低时延、高可靠性正成为无线通信设备的发展趋势。天线作为射频前端重要组成部分也逐渐朝着规模化、阵列化、多功能化发展,以适应日益复杂的通信系统需求。然而在空间有限的资源条件下,当天线尺寸大幅度减小时,天线的辐射性能也随之下降,并且天线阵列的阵元间距进一步缩减,强烈的阵元间耦合也会使得阵列性能恶化。因此,发展适合于有限空间的天线单元及