命名实体识别的领域适应性研究及应用

来源 :山东理工大学 | 被引量 : 0次 | 上传用户:ken_008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体识别是自然语言处理领域的核心基础性任务之一,其任务是从文本中提取特定类型的实体。在信息检索、问答系统、信息抽取、文本挖掘、舆情分析等下游自然语言处理任务中具有重要的科学意义和广泛的应用价值。从目前已有的研究成果来看,命名实体识别研究在专有领域(社交媒体、医疗领域)识别的结果,受困于高质量标注语料规模小的现状,对比传统领域性能更差。使得专有领域命名实体识别成为一个有挑战性的研究领域。如何进行命名实体识别的领域适应性迁移,提高专有领域模型的性能是本课题的主要研究内容。本文主要研究内容包括:(1)综述命名实体识别的研究背景及发展历程,分析比较常见命名实体模型的性能优劣,并阐述了迁移学习在命名实体识别领域适应性研究的可行性。(2)对基于深度学习的命名实体识别模型算法Bi LSTM-CRF模型进行归纳并改进,通过Glove语言模型将字符文本转化为低维稠密向量,同时利用双向长短期记忆网络提取字符级别的特征,将字词结合的向量表示利用CRF层计算并输出最优标记序列。构建端到端的实体识别模型。(3)设计并实现了ERNIE-Bi GRU-CRF模型。针对深度学习方法处理命名实体识别任务时,经典的词向量表示只能将其映射为单一向量,无法在上下文中表示出字的多义性这一问题,提出ERNIE-Bi GRU-CRF模型,该模型通过知识增强语义表示ERNIE预训练模型增强字的语义感知表示。引入多元数据知识生成语义向量,然后将字向量输入到GRU层提取特征,最后通过CRF层计算得到标签序列。(4)设计并实现了一种迁移学习神经网络模型TL-Bi LSTM-CRF。首先利用双向长短时记忆网络提取具有字符级别形态特征的字符向量,并结合具有语义、语序等特征信息的词向量作为输入,构建模型;其次在基本模型中引入词适应层,并通过典型相关性分析算法弥合源域和目标域词向量特征空间的差异,对模型进行迁移。以上模型都在相关数据集上进行的实验验证,以自然语言处理领域常用的召回率、准确率和F1值三种方式作为评价指标,实验结果表明,以上迁移学习的学习模型均有一定程度上的性能提高。验证了文中模型的可行性和有效性。
其他文献
近年来,我国传统银行业出现不良贷款率攀升等一系列信贷风险问题,金融科技的快速发展颠覆了银行业的传统运行方式和经营模式。银行业和金融科技逐渐出现深度融合趋势,催生了一种新型金融模式——互联网银行。2014年12月,前海微众银行作为我国第一家互联网银行宣告成立,背靠腾讯大数据平台,利用金融科技搭建先进的信用评级体系、模型和机制,微众银行的信贷风险远低于行业水平。本文案例部分介绍了微众银行的基本情况、信
随着非线性科学的发展,因为混沌信号具有复杂的运动轨迹和不可预测性,同时由于光纤带宽巨大,近年来基于半导体激光器的混沌通信日益受到研究者的广泛关注,利用混沌同步实现保
图顶点相似度计算问题,即在图上计算出所有相似度系数大于等于给定阈值的顶点对,该问题作为图分析领域的基础性算法问题,广泛应用于用户推荐、关系链预测等领域。然而,图顶点相似度计算是一个计算复杂度较高的问题,尤其是在大数据时代。因此,大规模分布式图顶点相似度计算方法和算法研究成为一个重要的研究课题,具有很高的理论研究和实际应用价值。目前已有一些分布式图顶点相似度计算算法研究工作,主要分为基于过滤的计算和
研究目的:通过调查城市青年过去7天体力活动、邻里环境因素与社会学特征,分析邻里环境因素、社会学特征对城市青年人体力活动的影响,为体力活动促进健康策略制定提供参考。研
目的:基于慢病管理及中医治未病理念开发针对EB病毒潜伏感染人群的慢病管理移动医疗应用,并调查广州地区EB病毒的感染情况,建立体质、证候等中医电子数据库,分析其中医特点及发展规律。以期进一步了解EB病毒潜伏感染的发生、发展过程,提升EB病毒慢病管理方案的有效性和便捷性,从而降低EB病毒感染率,最终达到降低EB病毒相关恶性肿瘤发病率的目的。方法:选择2018年1月-2018年12月在广东省中医院门诊部
随着社会的发展,人民对健康的要求逐步提高,就诊人数日益增多,而同时我国医疗资源严重紧缺,医疗运营部门尚未形成成熟的管理体系,导致了我国“看病难”、医患关系紧张的现状
随着我国“智慧消防”工作的不断推进,要实现“智慧消防”中关于智慧感知、智慧防控和智慧管理的需求,对于火灾风险的精准研判与实时监测至关重要。但目前我国火灾风险评估面临的火灾基础信息累积不足、火灾数据分析不彻底、时效性不强等问题,难以满足当前“智慧消防”工作需求。2008年,Google经研究发现,流感相关关键词搜索量与实际患有流感症状的人数之间存在着密切关系,并根据此相关关系构建了流感趋势在线预警系
巨噬细胞(Macrophage,Mφ)是介导固有免疫和获得性免疫的重要桥梁,在阻止和清除病原体入侵机体中发挥重要作用。Mφ也是某些胞内致病菌(如沙门菌)的庇护场所,致病菌可借助Mφ逃避宿主的免疫防御。乳酸菌(lactic acid bacteria,LAB),作为益生菌的重要代表,因其特有的定植位置和益生功能,在活化Mφ、树突状细胞(DC)等抗原递呈细胞方面发挥了重要作用。因此,常用于预防肠道病原
随着互联网的普及以及地理位置定位技术的成熟,使基于位置的社交网络(Location-based social networks,LBSN)推荐服务成为现实。加之经济的发展,旅游被越来越多人所青睐,基于
爱德华·阿尔比是美国二十世纪60年代最重要的剧作家,他的作品主要关于现代社会中的背叛与遗弃、幻想与现实和存在主义危机等议题。《谁害怕弗吉尼亚沃尔夫?》是阿尔比的代表作品,自问世以来,学者们已从很多角度进行了解读,比如精神分析,美国梦,女性主义以及荒诞性,并且国内学者也另辟蹊径,从新历史主义,狂欢理论和空间理论等视角进行解读。然后,尽管对该剧的研究成果颇多,但是基于游戏理论的研究几乎微乎其微。论文主