论文部分内容阅读
随着互联网的高速发展及移动设备的普及,人们获取热点话题的途径越来越多,每隔一段时间都会发生当下讨论度最高的话题。各个平台的报道消息使得人们检索话题中关键信息的时间增加,对于一起事件的前因后果及防护措施没有一个直观的表达。话题事件是实时的动态数据,会随着时间、地点、人物等因素下会触发不同的事件结果,研究事件间的因果逻辑是自然文本处理的一项难题。近些年知识图谱技术得到了广泛的研究,但着重解决的是静态数据问题。对于动态数据的研究提出了事理图谱概念,它是一种事理逻辑知识库,描述事件间的演化规律。针对以上问题,本文面向热点话题构建因果事理图谱,利用事件抽取技术抽取出事件的元素,利用事件关系抽取技术获得事件间的逻辑关系,在此基础上实现话题查询与智能问答功能,主要完成工作如下:提出了热点话题的事理图谱构建框架,首先数据源的获取采用Scrapy爬虫框架,以时间降序排序。基于热点话题标题采用Kmeans无监督算法将数据源分为几类话题。定义事件的元素由事件参与者、事件触发词、事件发生地点、事件发生时间、事件发生程度组成。其次采用序列标注方法,将事件抽取研究转化为序列标注任务,实现从热点话题事件中抽取事件元素。实验对比三种不同序列标注模型,发现基于BERT+Bi-LSTM+Attention+CRF模型的性能最好,在测试集上F1的值达到了91%。接着事件关系抽取研究,本文分别从基于依存句法分析显式因果关系抽取,基于事件句及事件对的隐式关系抽取做出研究,最终采用结合事件间规则特征和Bi-GRU的抽取模型,在测试集上F1的值达到了86%。然后基于事件抽取元素组成的事件对利用语义相似度计算得到分数最高的两对事件及事件关系抽取的4876条因果关系事件对,构造出<原因事件,因果,结果事件>、<事件i,相似,事件j>三元组,接下来将事件作为实体、事件与事件的因果、相似关系连接为关联关系存储在Neo4j图数据库中,实现事理逻辑知识库的搭建,构建出面向热点话题的因果事理图谱。最后,基于构建好的热点话题因果事理图谱设计开发了事理图谱应用系统,实现了话题查询和智能问答等功能。本文在构建事理图谱关键技术中,在事件抽取技术采用多种神经网络结合研究提高了事件元素抽取的准确率,在事件关系抽取提出事件对的概念,结合事件间的规则特征与双向长短时记忆模型抽取的因果事件对准确率更高,同时采用Neo4j图数据库克服传统数据库深度查询不足的缺点。基于此方法构建的因果事理图谱,节省了整合资源及构建时间,提高用户获取关键信息的速度,满足人们对实时热点话题理解与防护措施等需求有重要意义。