面向新闻文本的知识图谱构建技术研究与应用

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:a619906915
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据量爆炸式的增长,传统的搜索引擎及其查询方式仅能为用户提供碎片化的知识,无法为用户解读不同知识之间的关联,无法构建完整的知识体系,也无法法满足人们日益增长的对网页文本信息及知识捕获的需求。在此背景下,知识图谱应运而生。知识图谱作为人工智能的重要分支,对人工智能有着极其重要的作用。近年来,伴随着知识表示、机器学习等科学技术的飞速发展,知识图谱的诸多技术获得了突破性进展,特别是在知识图谱构建、推理、计算以及服务技术等方面,都取得了令人瞩目的成绩。现阶段,知识图谱已经在工业界得到了广泛的关注,取得了显著成果。许多互联网公司巨头(如:谷歌、微软、百度等)等都率先启动了通用知识库的构建,应用这些知识库提供语义搜索,以期让搜索引擎能更准确地理解用户查询。网络新闻文本已呈现爆炸式的增长态势,传统的搜索和查询方式已经无法满足社会对互联网公开新闻数据的处理和应用要求。知识图谱在查询精度和查询可扩展性两方面有着巨大的优势,在多个领域已取得了瞩目的成绩。然而,目前已有知识图谱大多都是通用知识图谱,新闻领域的知识图谱并没有得到很好的构建。构建一个面向互联网公开的新闻文本信息的知识图谱,将知识图谱应用到新闻文本中有着意义重大。本文主要做了以下四个方面的工作:(1)面向新闻文本的领域本体构建方法研究与应用。在面向网络新闻文本的领域本体构建任务中,本文提出了一种基于模式设计的领域本体构建方法。本章应用所提出的方法,面向舰船领域新闻文本,构建了一个舰船新闻领域本体,从而验证了该方法的有效性。(2)基于Seq2seq框架的细粒度命名实体识别研究。在面向新闻语料的实体抽取任务中,本文提出了一种基于Seq2seq框架的FSeq C模型,该模型的编码层为Bi-LSTM模型,解码层为LSTM模型。为进一步提高模型性能,该模型还使用了自注意力机制和CRF模型。(3)基于标签生成的知识三元组联合抽取方法研究。在面向新闻语料的实体关系联合抽取任务中,本文提出了一个端到端的标签生成框架BERT-Bi LSTM-CRF,并将框架用于联合的知识三元组抽取。本文设计了一种三段式标签方案,将分词所属的实体和关系信息融合进标签,根据标签信息组合得到知识三元组。从而使抽取问题完全转化为标签生成问题,实现真正的联合抽取。本文引入BERT作为词向量生成的预训练模型,并结合了BERT下游的标签生成模型进行了Fine-Tuning训练。通过在真实数据集上进行实验,并与不同的标注模型进行对比,BERT-Bi LSTM-CRF在知识三元组抽取任务中的表现超过了其他同类算法,取得了最优的效果。(4)基于实体知识扩展的新闻文本分类方法研究。本文面向新闻文本分类任务,开展了基于实体知识扩展的新闻文本分类方法研究。本文针对中文新闻标题分类任务,首先利用知识图谱扩展新闻标题中命名实体的语义信息,然后采用基于H-CNN的分类模型,完成新闻文本分类任务。总之,通过本文提出的知识图谱构建技术及其应用,为面向新闻文本的非结构化知识图谱构建和应用提供了一些可行的解决方法和技术方案。
其他文献
波达方向(Direction of Arrival,DOA)估计是阵列信号处理领域的核心问题之一,在雷达、导航、数字通信、目标检测等领域都有着广泛而重要的应用。均匀线性阵列拥有规则化的阵列结构,与其匹配的DOA估计算法得到了广泛的研究,并形成了相对成熟的技术。但阵列孔径与阵列自由度受限于实际阵元的数量。基于均匀线性阵列的DOA估计算法需要通过增加实际阵元数量来提升阵列自由度,并提高精度和分辨率。近
学位
随着信息技术,尤其是传感器网络与物联网等技术的飞速发展,各类复杂系统的数据呈海量性增长,从这些数据中挖掘与系统相关的规律与模式,对于理解、分析、运用与改造复杂系统具有至关重要的作用。作为数据挖掘的基础性工作,相似性度量方法直接关系后续数据挖掘任务的实现,一直是数据挖掘研究的热点与难点。属性网络作为有效的复杂系统建模工具,其相似性度量方法主要考虑节点在整个网络中的拓扑结构特征,往往忽略了节点自身的非
学位
混合模糊测试是一种新近提出的软件漏洞挖掘技术,由黑盒模糊测试和白盒符号执行两种方法结合,很快成为软件安全领域的研究热点。混合符号执行作为其中的重要技术之一,具有求解精确、指向性强、资源消耗巨大等特点。由于真实软件系统庞大复杂,基于二进制的混合符号执行依然存在可伸缩性(scalability)问题,导致混合模糊测试效率低下,不能实用。传统的混合模糊测试提升技术多聚焦于利用多种动静态分析手段辅助模糊测
学位
移动通信的演进升级得益于系统关键性能指标的全方位倍增,加强对移动通信的性能增强研究对于加速生产生活数字化转型、促进经济发展、引领军事变革具有十分重要的意义。调制方式是决定通信系统传输性能的关键因素。空间调制技术作为一种新型的数字调制技术,突破将信息调制到电磁波的幅度、频率、相位的传统思路,以天线的激活状态作为调制手段,可实现更加高效可靠的数据传输。然而传统空间调制技术面临天线激活状态检测准确度低、
学位
在大数据时代,为了解决多源数据相互冲突问题,真值发现已广泛应用于群智感知、健康医疗、众包、知识库构建等多个场景中。但是在真值发现过程中,数据源以及真值发现平台都面临着隐私泄露威胁。具体来说,数据源向真值发现平台提交的数据通常包含了数据源的健康状况、行动轨迹、个人习惯等敏感信息;与此同时,真值发现平台通过估算获得的数据源可靠性信息可能会反映出数据源的性别、年龄、专业、受教育程度等个人属性特征;此外,
学位
物理不可克隆函数(PUF)是一种新型的物理安全原语。类似于人类的生物识别技术,它能对不同的物理实体产生不可克隆、不可篡改和不可预测的固有特定响应。PUF与传统的基于密钥的密码系统不同,它不需要在设备上存储私密信息,而是利用物理实体在制造过程中不可控的纳米级工艺偏差来产生私密信息。与传统基于密钥的硬件安全原语相比,PUF具有更高的安全性和更小的硬件开销,从而使其适用于资源有限的嵌入式系统。PUF的安
学位
数据中心为大数据存储和大数据处理提供了硬件基础。在数据中心内部,多台计算节点通过高速网络互联为分布式计算系统,并广泛用于大数据处理等应用。近年来,面向大数据处理的数据并行计算平台(如Hadoop和Spark等)受到了来自于学术界和工业界的广泛关注。大数据处理平台的调度技术会直接影响大数据处理作业的执行效率。本文从数据中心用户和数据中心管理者的需求出发,围绕大数据处理作业的资源分配和作业调度,研究以
学位
无人机是未来战场中无人作战的中坚力量,集群化是其未来发展的重要趋势之一,无人机集群具有任务拓展能力强、执行任务成本低等特点,可满足未来高动态、强对抗等复杂环境下的作战任务需求。随着无人机数量的增加、协同要素的复杂度提升和作战使用方式的拓展,如何确保无人机集群的任务成功率和任务维持能力,已逐渐成为制约无人机向大规模集群化发展的瓶颈之一。韧性主要用于描述和评估系统在遭受干扰后的恢复能力,基于韧性视角研
学位
当前,全球化“工业4.0”革命进程和我国的“中国制造2025”战略计划中,机器人均作为核心技术受到了前所未有的重视。以美国为例,谷歌公司的无人驾驶汽车、多足仿人机器人,亚马逊公司的仓储自动导引车,以及美国太空总署的好奇号火星车等都在吸引着全球媒体的目光。欧洲、日本和中国等也纷纷出台了自己的机器人研究计划。面对机器人系统及其集群任务复杂而多变的安全性需求以及恶劣与不确定性外部环境,如何安全地控制各个
学位
随着集成电路制造工艺的不断进步,电子器件的集成度和工作频率越来越高、工作电压越来越低,致使其受宇宙射线、电磁辐射等因素影响而发生软错误的概率显著增加。为应对软错误对计算机系统可靠性带来的挑战,国内外纷纷展开了针对软错误的容错技术的研究。容错技术从实现方式上通常分为硬件容错和软件容错,与需要重新设计或改造硬件设备的硬件容错技术相比,软件容错技术以其开发成本低、周期短、可灵活配置等优势而备受关注。软件
学位