【摘 要】
:
命名实体识别是指从自然语言文本中识别有特定意义的实体,例如人名、地名、组织机构名等。随着互联网的飞速发展,命名实体识别的需求不仅局限于传统的三类实体类型,进一步拓展到了对于各个专业领域命名实体的识别。在大规模数据上,基于深度学习的方法在命名实体识别任务上能够得到较好的效果。但是由于标注资源的限制,在目标领域中常常无法获得大规模的有标注数据,直接应用深度学习的方法无法获得比较好的效果。因此本文研究跨
论文部分内容阅读
命名实体识别是指从自然语言文本中识别有特定意义的实体,例如人名、地名、组织机构名等。随着互联网的飞速发展,命名实体识别的需求不仅局限于传统的三类实体类型,进一步拓展到了对于各个专业领域命名实体的识别。在大规模数据上,基于深度学习的方法在命名实体识别任务上能够得到较好的效果。但是由于标注资源的限制,在目标领域中常常无法获得大规模的有标注数据,直接应用深度学习的方法无法获得比较好的效果。因此本文研究跨领域的命名实体识别方法。跨领域命名实体识别是指利用源领域有标注数据和目标领域无监督数据来增强目标领域的命名实体识别效果,存在着以下几个难点:1)需要找到领域间的实体的共通特征表示;2)预训练任务与命名实体识别任务目标不相关;3)源领域、目标领域模型结构难以完全统一。本文的研究工作如下:1.基于序列标注的跨领域命名实体识别。本文首先对预训练的语言模型进行了研究,说明了领域预训练可以有效提升命名实体识别的效果,然后在序列标注模型的基础上研究对比了源领域数据的不同利用方式对跨领域命名实体识别效果的影响,最后研究对比了基于参数生成的跨领域命名实体识别方法。2.基于掩码关键词预训练的跨领域命名实体识别。本文从关键词与命名实体关系的角度出发,发现两者具有较高的重合度,由于传统的预训练过程与下游的命名实体识别任务是无关的,这显然不利于目标领域的效果提升,因此本文利用领域无关的关键词抽取模型对不同目标领域的无监督数据进行关键词抽取,提出在预训练过程中重点对关键词进行掩码预测的方法。实验结果证明掩码关键词预训练能够有效提升目标领域命名实体识别的效果。3.基于阅读理解的跨领域命名实体识别。本文将基于阅读理解的命名实体识别引入到跨领域任务中,实现了源领域、目标领域模型结构的一致。研究了基于阅读理解的跨领域命名实体识别的优势,对比了不同的问题构造方式。由于目标领域的数据规模有限,模型容易产生过拟合现象,因此本文将对抗训练任务引入到基于阅读理解的跨领域命名实体识别模型中。相比目前已知最好结果,本文方法在五个目标领域上平均提升了1.91,在生物医学领域提升了0.61。证明了基于阅读理解和对抗训练任务的跨领域命名实体识别方法的有效性。
其他文献
如今软件产品有着非常广泛的应用,软件错误的发生可能带来很严重的后果,软件错误的定位显得更为重要。人工定位错误耗时又费力,自动化错误定位可以节约开发人员时间,降低调试难度。基于变异的错误定位不涉及程序依赖关系分析,是一种轻量级的错误定位方法,计算复杂度低,同时又定位在语句级别,定位精度较高。但是因为其会有大量变异体生成并执行,所以花费成本较高。由于现有的变异算子是为模拟程序错误而设计的,若变异算子可
近年来,随着互联网和云计算技术的发展,我们逐渐从信息化时代向智能化时代迈进,互联网成为了最多源的信息采集平台。知识图谱打破了传统数据存储介质的局限性,并通过结构化的方式将实体和关系集成来自互联网上的多源异构数据,形成了统一化的语义网络结构。在数据收集、传输、探索和分析的基本技能中,最需要的一项是发现多源、多变量和流数据中的隐含的关系。无规范化的领域知识阻挡了本体和知识库的共享,由于本体的主观性和知
甲状腺结节是临床常见病和多发病。在临床中,普遍采用超声成像技术对甲状腺结节成像,生成的超声图像是医生对甲状腺结节进行诊断和治疗的重要依据。在临床中,超声图像通常由训练有素的专家阅读,他们通过撰写文字报告来描述患者的异常和疾病。超声图像的阅读和超声报告的撰写花费了放射科医生大量的工作时间,而且由于医生的时间和精力有限,会出现漏诊和误诊的情况。因此,医学超声图像报告的自动生成技术,即为一张超声图像自动
[研究目的]平台企业数据共享是维护市场安定、保护国家经济安全中的重要一环,数据所具有的竞争法品性,使得平台企业数据共享需要被纳入反垄断法进行规制。[研究方法]在反垄断背景下分析平台企业滥用数据优势的行为及危害,进而阐述平台企业数据共享的理论根源和实践现状。从平台市场竞争失序的理论根源研究出发,据此提出平台企业数据共享的理论支撑。对平台企业数据共享现状进行研究,发现平台企业数据共享运作机制存在着市场
随着互联网的不断发展,网民的数量逐渐增多,网络信息也呈爆炸式增长。这些信息基于用户的真实体验,蕴含着巨大的价值。目前可以使用情感分析技术挖掘其中的情感与观点,然而由于许多时候人们不直接通过情感词,而是选择“隐晦”地表达其真正想说的意思。隐式情感分析可以较好地处理这类问题。由于这类问题有一定的占比、不容忽视,且目前受到的关注较少,因此本文聚焦于隐式情感分析技术,对其中的各种任务做出研究。本文的主要研
传统的辅助维修主要靠维修人员的经验和极其简单的工具进行维修,在时间、设备和环境等方面受到极大限制,这使得维修工作变得难度大、效率低。增强现实(Augmented Reality,AR)的蓬勃发展,为维修工作提供了新的解决方案,如果能够在维修工作中利用移动设备和AR技术来辅助维修,将在很大程度上提高维修效率。同时边缘计算的发展,使得网络边缘的算力大大加强,利用边端协同策略提高辅助维修系统的性能也有了
代码克隆是具有相似语法或语义的重复代码片段。代码克隆检测在软件维护、代码重构以及漏洞检测等任务中起着重要的作用。为了节约大量的人力、物力,自动检测出代码库中的代码克隆是软件工程领域最重要的问题之一。近年来,利用机器学习技术分析源代码已经引起了人们的广泛关注,不少研究人员采用机器学习技术进行代码克隆检测。较早的研究工作主要使用信息检索方法,这丢失了大量的重要语义信息。最近的研究表明,借助于源代码的中
随着数字经济的发展,数字市场反垄断面临着市场支配地位认定困难、相关市场范围界定困难、数字经营者集中审查困难等问题,作为反垄断的辅助性法律如《电子商务法》《反不正当竞争法》《价格法》等在应对数字反垄断领域也存在法律适用困境。就国外数字反垄断治理的最新进展看,必要设施规则、优势地位滥用规则、跨市场竞争影响滥用规则各有其适用领域及条件,在应对数字市场反垄断治理中也起到一定的作用,但在规制方式上与传统的反