基于嵌套命名实体识别算法的知识抽取系统设计与实现

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:huishouzhong2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
知识抽取技术能够帮助人们从海量内容中自动抽取结构化知识,因此开展知识抽取技术的研究至关重要。知识抽取具有三个核心的子任务:实体抽取、属性关系抽取和事件抽取,目前各项子任务的研究方法均取得快速发展,但仍存在以下问题:1.算法与领域知识结合不紧密,对领域知识利用不充分。2.嵌套实体识别与实体多分类同时实现较为困难。因此,基于背景知识嵌入,改进了嵌套命名实体识别算法,并设计和实现了知识抽取系统。基于嵌套命名实体识别算法的知识抽取系统包括四个模块:文本预处理模块、嵌套命名实体识别模块、属性关系识别模块和知识抽取模块。文本预处理模块通过遍历上下文的方式,实现跨句拼接功能;利用编码性质,结合编码运算实现全角转半角、大写转小写等功能;收集字典,通过字典映射实现繁体转简体功能。嵌套命名实体识别模块包含三个子模块,实体特征抽取子模块使用预训练模型,完成实体特征抽取;知识嵌入子模块借助实体矩阵表示全部背景知识,将知识无损嵌入模型;实体识别子模块基于注意力打分机制,改进了多头选择机制,实现了实体多分类。属性关系识别模块包含三个子模块,实体标记添加子模块根据实体识别结果,添加实体标记;属性关系特征抽取子模块使用预训练模型,完成属性关系特征抽取;属性关系识别子模块使用前馈神经网络,完成属性关系识别。知识抽取模块包含知识结构化与知识存储两个子模块,将实体与属性关系作为图数据库的节点和边,实现知识可视化。实验结果表明,基于知识嵌入的嵌套命名实体识别算法的F1值在嵌套NER数据集(ACE2004、ACE2005、KBP2017、GENIA)与非嵌套NER数据集(MSRA、Co NLL2003、Onto Notes4.0)上较最优方案均取得提升,最高提升1.42;在关系抽取数据集ACE2005、Sci ERC上分别提升0.9与2.3。对于不同的输入数据,知识抽取系统整体表现稳定,并且在性能方面约100毫秒每句,符合实际应用场景需要。
其他文献
中国式农村教育现代化发展道路需要有自身的理论建构。中西比较维度下对西方农村教育现代化道路与理论的批判与超越成为建构中国化理论的起点,这一维度要求中国式农村教育现代化理论要打破西方意识形态偏见,探索不同于西方的本土现代化模式;以世界先进水平为标准定位教育现代化,积极推进教育强国建设;破除路径唯一性幻象,探索传统与现代共存、乡土化与城市化并进的新型农村教育现代化之路。历史变迁维度下对中国式农村教育现代
期刊
冠心病是最常见的心血管疾病,给居民带来严重的健康问题和经济负担。冠状动脉分段标记可用于冠心病的病理分析,对冠状动脉血管造影图像中不同类别的血管段应用不同权重,计算解剖结构分支的统计数据。冠状动脉分段标记得越精确和细致,越有助于自动量化冠心病的复杂程度,加快医生分析工作的流程时间。目前,大多数基于深度学习的分段标记方法能够自动对冠状动脉完成分段,但是存在分段类别过少的问题,无法识别不常见的分支。冠状
学位
联邦学习允许参与者在不共享数据的前提下协同训练模型,由于其很好地保护了用户数据隐私并打破数据孤岛,逐渐成为了国内外研究人员的关注热点。联邦集成蒸馏(Federated Distillation and Fusion,Fed DF)算法是联邦学习中一种现有的高效中心聚合算法,该算法以外源数据为蒸馏数据,对初步参数平均聚合得到的模型再蒸馏来提高模型的预测准确度。但在实际场景中外源数据难以获取,且在训练
学位
新型冠状病毒肺炎是一种严重危害世界人民健康甚至生命的疾病。对新冠的研究有多个方面,其中,患者在治疗过程中病情变化规律的研究,是一个重要的问题。根据患者治疗中的指标表现,可将其分为普通、重症、死亡3种程度,病情的变化规律指的是患病程度如何变化。根据临床实际治疗样本,总结了四种新冠患者病情变化规律:普通仍然普通、普通变成重症、重症变成普通、重症变成死亡。现阶段统计了上述四类患者的临床数据,包括病人肺部
学位
随着我国医疗科技的飞速发展,人们对医疗服务的需求和依赖也呈爆炸式增长,在这个过程中,不可避免地滋生出了许多治疗不规范、费用不合理的情况。为了能够提高医疗质量、控制医疗费用,临床路径与疾病诊断相关分组(Diagnosis Related Groups,DRG)作为一种有效的技术手段开始被广泛使用。但是其依然存在着数据容易被篡改、医疗异常无法及时被发现以及出现医疗事故后无法查询出详细信息和定责等问题。
学位
近年来,社群搜索已经广泛用于好友推荐、事件组织与活动举办和基于地理与社交的数据分析等基于位置的应用场景中,但是社群中包含大量的用户信息,如果对社群搜索进行不当的利用,用户的社交好友关系、签到行为喜好甚至其他隐私信息都会被泄露,采取措施保护用户的原始数据,消除社群搜索应用存在的隐私泄露隐患,对保证用户的安全具有重要意义。分析了仅对用户的社交关系或签到数据采取隐私保护后,社群搜索仍然存在的隐私泄露问题
学位
为了准确刻画网络论坛投资者情绪并探讨其与我国股市的收益关系,本文将根据东方财富网股吧数据,基于BERT模型构建投资者情绪指数,并借助向量自回归模型考察投资者情绪与股市收益率和成交量之间的动态影响。实证结果表明:相较于6种经典的情感分类模型,本文构建的BERT模型在各项评估指标上的表现更佳;股市收益率对投资者情绪存在正向影响,投资者情绪与成交量存在双向影响。
期刊
在计算机视觉领域,三维人脸重建是一个非常热门的研究方向。三维人脸重建方法的目标是根据已有的二维人脸图像,构建出真实且高精度的三维人脸。由三维人脸重建算法恢复的三维人脸可以应用于影视、动画和医学等领域。三维人脸重建技术可作为辅助技术用于人脸编辑和人脸识别等研究方向。现有的基于深度学习的三维人脸重建方法无法生成真实的人脸纹理和精确的人脸形状,对于多样性原始图像重建人脸的鲁棒性不够好。为了生成更加真实且
学位
随着深度学习技术的不断发展及相关产业需求的提升,基于图像的三维物体重建技术受到越来越多的关注。目前,主流三维重建多以深度神经网络为技术支撑,通常包含编码器和解码器两个核心模块。然而,由于深度学习技术在三维重建方面的研究起步较晚,重建出的三维物体在局部细节上仍有待完善。鉴于此,以高质量三维重建为核心需求,围绕深度神经网络中的编码器和解码器设计,开展了以下研究:首先,设计了基于多分辨率编码的三维点云重
学位
随着互联网电商平台的兴起,商品推荐系统发展迅速。研究表明,基于用户与商品交互序列的推荐算法能够感知用户的长期偏好,有助于提升推荐效果。通过对真实数据集分析,发现某些情况下交易数据具有稀疏和短交互性的特征,在二手交易平台中尤为明显,此类问题降低了序列建模推荐方法的有效性。与此同时,当推荐系统进一步面对用户冷启动问题时,有必要综合考虑算法的适应性和数据的稀疏性问题。基于上述分析,对面向稀疏数据的序列建
学位