基于自然语言处理技术的事实检测系统设计与实现

来源 :东南大学 | 被引量 : 0次 | 上传用户:xp1987627
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的快速发展给信息的共享创造了便利条件,同时也为虚假信息的传播提供了生存环境。研究表明虚假信息比真实信息具有更强的传播力度,会对个人的日常生活和社会的秩序产生影响。基于自然语言处理技术的事实检测旨在运用自然语言处理相关技术,自动判断信息的真实性。因此,研究基于自然语言处理的事实检测方法对遏制虚假信息的传播至关重要。基于自然语言处理技术的事实检测任务一般包含文章检索、证据抽取、真假推理三个步骤。给定一个陈述,首先在知识库中检索出与陈述相关的文章集合,缩小搜索空间;然后从文章集合中抽取出证据集合,将证据粒度细化为句子级别;最后基于证据集合对陈述的真实性进行判断。当前事实检测任务面临如下挑战:(1)检测过程需要挖掘证据和陈述之间的逻辑关系,而逻辑关系比常见的语义关系更加复杂;(2)基于单条证据可能无法判断某些陈述的真假,需要根据多条证据联合推理;(3)证据和陈述之间不恰当的交互会对推理效果产生负面影响。面对上述挑战,本文围绕基于自然语言处理的事实检测方法,开展如下主要工作:(1)针对当前事实检测任务面临的挑战,本文提出了一种基于深度交互推理模型的事实检测方法。在文章检索阶段,通过成分句法分析和启发式方法抽取陈述中的实体集合,基于规则检索文章集合;在证据抽取阶段,引入对比学习思想解决数据集中不存在相关性分数标签的缺陷,通过为句子打分抽取证据集合;在真假推理阶段,提出一种基于端到端记忆网络的深度交互推理模型,模型首先通过多头映射机制全方位地捕捉证据所提供的信息,然后对端到端记忆网络进行改进,并将其升级为多层结构,从而深层次地挖掘证据与陈述之间的推理关系,最后对陈述的真实性进行判断。对比实验和消融实验验证了本文所提深度交互推理模型的有效性。(2)本文设计并实现了一个基于知识库的事实检测系统。本文从软件工程的角度出发,明确了系统的功能需求和非功能需求,对系统进行架构设计、模块设计和数据库设计。系统包括原始数据层、文章检索层、证据抽取层、真假推理层和结果展示层五个部分,集成了事实检测各个步骤的方法,进一步对检测流程进行优化,并将检测结果以文本和网络图的形式进行展示。本文所提事实检测方法在FEVER数据集上的正确率达到了74.52%,优于其它方法,测试结果验证了事实检测系统的有效性。
其他文献
学位
在“碳中和”背景下,煤炭等化石能源在能源供应中的比重将逐步降低,但受限于技术瓶颈,短期内可再生能源难以高比例接入现有能源体系,煤炭的能源消费主体地位仍不会发生改变。而燃煤电厂作为煤炭消耗的大户,其排放的污染物所造成的环境污染问题应引起足够重视。经过长时间的改造治理,电厂现有的空气污染物控制装置(APCDs,Air Pollution Control Devices)已经能够很好的控制SO2、NOx
学位
量子力学和信息理论相结合所诞生的量子信息学开创了信息学的新空间。基于量子信息学构建的量子通信网络因为其在量子域中的非局域性和态叠加特性,使得在信息处理方面具有安全性和高效性,是未来通信网络的重要组成部分。在通信网络的研究中,网络容量是组网过程中一个重要的考量指标,对其展开研究具有必要性。本文主要通过研究量子通信网络拓扑模型和量子通信网络传输模型,从而提出了量子通信网络分层模型,并在此基础上进一步研
脑机接口(Brain Computer Interface,BCI)作为一种新型的多学科交叉技术已经被应用于许多领域,给无数存在肢体运动障碍的患者带来了曙光。基于脑机接口技术的机械臂控制可以彻底改善残疾患者和神经疾病患者的生活质量和生活条件。一直以来,研究人员尝试通过脑机接口技术帮助患者,使他们能够通过自己的大脑直接发送指令控制机械臂灵活运动,从而为他们的生活带来便利。基于侵入式脑电图(Elect
目的:纵向数据是医学研究中常见的一种类型,在一些研究中,研究对象接受治疗后的发展轨迹可能不是来自同一总体的,即变化轨迹存在异质性。增长混合模型是纵向数据中识别总体变化轨迹异质性的一种统计方法,但是,在正确识别异质发展轨迹方面,三类枚举指标(信息指标、熵指数及衍生指标、似然比检验衍生指标)的性能特征却鲜为人知,尽管有少数模拟研究进行了探讨,但仅限于线性增长混合模型,本研究旨在探讨在同质总体(k=1)
随着电动汽车、数据中心、通信等领域的快速发展,对宽电压输入、高效率的DC-DC变换器的需求越来越大。Buck-Boost LLC级联变换器在高频小型化方面有着优秀的表现,但如何进一步提高变换器的宽输入范围和效率还有待研究。针对Buck-Boost LLC传统控制方法无法在宽输入电压下实现变换器功率管软开关的问题,首先分析确定了最优的中间母线电压,进一步建立了关于功率管占空比、相移范围的软开关边界模
近年来,多智能体系统成为控制领域的研究热点之一,其中,智能体之间运行的分布式协同控制方法依赖于实时可靠的网络通信,这也使得针对通信网络的安全攻击能够进一步对多智能体协同控制造成影响。在常见的通信网络攻击方式中,通信干扰攻击较少依赖于被攻击对象的知识,因此易于实现。在多智能体系统中,通信干扰攻击能够通过影响甚至直接阻断智能体间的信息交互,进而破坏系统的分布式控制性能。对此,本文研究了通信干扰攻击下的
我国城市化进程导致非法占用土地、违章加盖等事件频发,严重影响国家粮食安全和社会可持续发展。较之人工巡查,定点监控采集不同时相下图像自动检测违章建筑的方式更为高效,但监控图像中道路与往来车辆常常干扰建筑物变化检测。为此,本文致力于研究定点监控视角下基于深度学习的车辆检测与道路分割理论与方法,去除车辆、道路信息对违章建筑判别的干扰,支撑违建现象的早发现与早处理。主要研究内容如下:(1)提出了一种基于空
磷是一种宝贵的难再生资源,是生物维持细胞和生命活动的必需元素。双污泥-诱导磷结晶(A2N-IC)系统耦合生物除磷与化学磷回收技术,将污水处理与磷资源回收相结合,产生经济与环境的双重效益,符合可持续发展的需要。然而,随着工业发展和人工合成生物技术的迅速崛起,污水中非活性磷的存在已不容忽视。非活性磷的反应性不佳,并不遵循活性磷(RP,即正磷酸盐)的迁移转化规律,其与污水中重金属、复杂有机物等均可能是导