基于自然语言处理的知识抽取算法设计与实现

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:shangwenqian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
知识抽取是指对数据进行检测、筛查并解析,获取其中的知识并存储到知识库的技术。情报分析系统中需要依据情报类别获取情报中发生的事件以及参与事件的实体,此时基于自然语言处理的知识抽取技术能够高效的解决这类问题。为了实现英文情报分析系统中实体、事件的抽取及展示,设计并实现了知识抽取算法,并结合前后端及数据库构建出完整的应用系统。首先介绍了知识抽取算法的开发背景,然后梳理了知识抽取技术的国内外概况,对项目实现涉及到的关键技术进行了总结,在经过需求分析和架构设计后,对知识抽取算法各个模块进行了设计与实现并构建成服务。主要工作包括:分析项目需求,设计情报知识结构,针对知识结构设计并实现数据预处理模块;设计并实现主题分类模块,从经过清洗的数据中获取主题为海军的文本数据;设计并实现基于双向长短期记忆网络和条件随机场的命名实体识别模块,抽取情报信息中的舰艇名、事件发生时间、事件发生地点;设计并实现基于动态多池化卷积神经网络的事件抽取模块,联合命名实体识别结果对事件触发词、论元进行识别分类,抽取情报中发生的事件;将知识抽取算法整合进英文情报分析系统,构建可移植的镜像,部署知识抽取服务于远程服务器。英文情报分析系统项目经过了详细的功能测试和性能测试,其中,主题分类模块的F1值为90.6,命名实体识别模块的F1值达到94.2,事件抽取模块的F1值为82.9。项目已在需求单位上线使用,能够自动从网站爬取数据进行知识抽取后根据用户操作显示在前端网页。
其他文献
伴随着移动智能手机的普及,基于位置的应用服务使用越来越广泛,应用服务方收集了大量的用户移动轨迹数据,给用户带来了位置隐私泄露的风险。为了能更好地保护个人隐私,数据发布方在数据发布前通常对用户数据进行隐私保护,倾向于发布隐私保护力度较强的不含用户标识、不含时间信息并且进行了差分隐私扰动后的无时间聚合移动轨迹数据。对无时间聚合移动轨迹数据进行成员推理,判定目标用户的存在性,从而发现隐私泄露,对于进一步
随着计算机的不断发展,人们对计算机的性能提出了更高的要求,除了要有更快的处理速度之外,还要有更高的服务质量,保障系统的长期平稳运行。为了满足人们的需要,弱实时性任务被广泛地应用。弱实时任务是具有一定容错率的任务,包括感知和控制在内的许多信息物理系统应用都会有一定程度的时间容错,在不影响服务质量的情况下,允许一小部分任务执行时间超过一定期限,其中容错率是要有一定限制的,否则会失去实时任务的意义。因此
由于海量的数据流量使得在云环境内对恶意软件进行检测时,需要较高的检测效率。但是现有的恶意软件检测方法中,基于特征码的静态检测方法随着流量的增大其特征数据库规模呈几何上升,动态检测的高系统开销也难以应对大流量的检测。因此提出一种结合静态、动态检测的分步检测方式,利用机器学习分类模型实现恶意软件快速自动化检测,旨在提高云环境中恶意软件的检测效率。云环境下恶意软件快速检测方法分为四个模块:快速过滤模块、
近几年来,计算机视觉飞速发展,与之相关的应用也已经进入到人们的日常生活中。识别自然场景图像中的文本还有许多问题需要解决。自然图像中的单词通常具有不规则形状,这是由透视变形,弯曲的字符放置等引起的。在某些场景中,存在弯曲变形的文本,导致部分识别方法的识别率较低。为了提高文字识别率,我从文字识别网络的特征提取网络出发,将普通的CNN网络用ResNet网络替换,因为ResNet网络更深,解决出现网络退化
图像识别技术有着广泛的应用场景,在应对大数据时代海量数据的处理和分析时,传统的图像识别技术经常会遇到性能问题,而量子计算具有独特的性质,可以利用量子计算来解决传统算法的运算效率问题。本研究致力于利用量子计算来加速图像识别技术,由于量子计算的相关研究尚不成熟,所以主要关注了图象识别领域的一个基本任务即数字图像识别,进行量子数字图像识别的研究。现有的量子计算研究及算法通常是使用量子线路表征的,这与经典
随着计算机技术的不断发展与进步,企业利用互联网在各大招聘网站发布招聘信息,求职者结合自身情况选择对应的岗位进行应聘。企业单位日益面对数量巨大,种类繁多的电子简历文档,单依靠人工进行筛选和录入简历信息不仅效率低下,而且需要耗费大量的时间精力。因此,研究如何利用现有的计算机技术从各招聘网站进行批量下载企业需求的各类简历文档,并快速准确的自动提取出企业关注的重要信息进行结构化存储具有重要的现实意义。针对
随着无纸化阅卷技术的发展,实现全题型自动化评分过程是未来发展的趋势。现有的无纸化评分系统可实现客观题自动评分,但对于主观题仍然需要依赖人工评分来完成。而人工评分效率低,耗费大量人力物力的同时,也因阅卷者的主观情绪、认知水平不同导致评分标准不一致,从而破坏了阅卷评分公平公正的原则。虽然使用计算机进行主观题自动评分能够在一定程度上改善这些问题,但现有的系统更多的是针对于非作文类题型,对于主观题细分题型
目标跟踪是计算机视觉的一个研究子领域,其有很多的应用场景。目前单目标跟踪的研究已逐渐趋于成熟,但是对于多目标跟踪,由于其目标不确定性、遮挡、数据关联等难点,所以目前多目标跟踪还有很多需要去解决的问题,其具有巨大的发展空间和研究意义。多目标跟踪应用场景之一智能交通系统,车辆计数是其中的关键,研究该应用场景也是具有非常大的应用价值的。针对DeepSORT多目标跟踪算法存在的问题,提出了改进的Deep
空地协同网络由立体空间多功能节点构成,面对多样化任务,承载多类型的动态业务。根据空地自组织协同场景下的不同业务请求,需要多速率匹配与自适应物理资源调度机制实现多业务信息融合通信。针对这一问题,本论文研究面向空地自组织协同的融合通信技术,设计了支持多速率的物理层融合通信体制,基于典型空地协同物理信道进行了多速率通信性能分析,给出了融合通信体制下的MAC层架构设计,提出了一种面向多业务速率匹配的自适应
随着智能终端和移动互联网的普及,世界已经进入智能制造和数字消费的时代。基于位置的服务已经渗透到人们生活的方方面面,在餐饮、物流、零售、制造、医疗、安防等行业有着广泛的应用前景。由于现代建筑的空间越来越大和结构越来越复杂,人们在室内所处的时间也越来越长。室内定位需求的增长使得室内定位成为定位技术研究的一个热点。基于CSI的分区指纹定位过程同已有指纹定位一样包含离线和在线两个阶段。离线阶段的第一个任务