面向知识图谱的自然语言到CYPHER转换

来源 :内蒙古大学 | 被引量 : 0次 | 上传用户:tsmcxuesheng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的发展和人们生活水准的提高,人机对话系统特别是基于知识图谱的对话系统已经成为自然语言处理领域中越来越热门的应用之一。随着图数据库的迅猛发展,图数据库类别不断增加,Neo4j是众多的图数据库中最流行的一种,如何通过自然语言直接与数据库进行交互已经成为了自然语言处理任务中研究热点之一。本文中主要研究的任务是自然语言到Cypher结构化查询语言的转化,是一个语义解析任务。语义解析是一种将自然语言直接转化为某种结构化查询语言的技术,也是自然语言处理中一个重要分支,实验主要是使用端到端的Seq2Seq模型框架完成的一个与机器翻译相似的语句到语句的生成任务。本文进行的实验具有一定的现实意义,针对于普通用户来说,在传统的方法中,想查询数据需要预先学习数据库系统以及数据库查询语言Cypher上的专业知识,用户需要通过使用具有良好定义语法的正确的查询语句来访问存储在图数据库中的知识,但是,使用正式查询语言来访问这些知识库会给非专家用户带来困难,这些操作这对于一个普通的用户很难实现。本文的工作内容有如下三点:1.根据中文医疗知识图谱,选取实体及关系构建所需数据集,数据集的格式采用一个自然语言问句对应一条Cypher查询语句的形式,通过人工创建模板的形式对数据集进行构建。2.首先采用端到端模型中主流模型Transformer作为baseline进行语义理解的实验,进行自然语言问句到Cypher结构化查询语句的转换。3.在Transformer的基础上,添加预训练模型BERT、Ro BERTa和ALBERT作为对照实验,以提高语义理解的精度。实验中首先将输入的中文问句以及对应的Cypher结构化查询语句经过数据的预处理,即对于每一个字符加入空格分开,一句话的前后用“CLS”和“SEP”标记,然后输入到模型中,实验取得了一个较好的转换结果。单独使用Transformer进行训练后,正确率已经可以达到95.653%的正确率,加载预训练后的模型的结果有高于Transformer也有低于Transformer的,可以得出用原有数据构成词表训练出来的模型比小规模的预训练模型效果要好,但是随着预训练模型结构的复杂化,参数量的增加,模型结构可以进一步提升。总体来说本文所提出的自然语言问句到Cypher结构化查询语句的转换是有效且可行的。
其他文献
随着互联网技术的发展,Web服务的数量飞速增长,各种类型的服务推荐系统层出不穷。尽管各大服务推荐系统都展现了高效的数据处理、服务推荐等性能,但现有的服务推荐系统大都基于中心化平台开发,功能与数据集中于中心服务器,这种过于中心化的权限存在着诸多问题,例如数据被篡改、数据泄露等。针对上述问题,本文利用区块链技术在去中心化、数据不可篡改等方面的优势,结合智能合约技术,开发了一种基于区块链智能合约技术的服
为解决时间序列方法对弹性时机点的预测中步长固定、考虑指标单一、预测结果不包含临界点等问题,为弹性策略提供更充足的准备时间,本文考虑访问量和特殊日期对弹性时间点(临界点)的影响,提出临界点预测与实时监测结合的资源预警模型。该模型以历史匹配数据库作为核心,使用长周期的历史数据训练临界点预测模型,并构建历史匹配数据库。将数据中心视为黑盒,通过黑盒监控指标实时监测来为预测模型提供输入数据和完成历史匹配数据
区块链技术和物联网访问控制结合,解决单点故障问题并实现去中心化的访问控制是当前物联网访问控制的研究趋势。本文设计并实现了一种基于区块链的物联网访问控制系统,使用区块链中的智能合约技术进行访问控制决策,访问控制权限仅在用户与区块链之间流动,以保证访问控制的可靠性。本文针对基于区块链的访问控制中因访问控制策略粒度过粗,出现越权访问、过度授权等问题,设计了一个访问控制策略模型FACPM(Fabric A
蛋白质组学研究在生物学研究中始终占据着重要地位,蛋白质复合物的研究也在不断深入且已取得了突破性进展。蛋白质复合物由多个蛋白质结合形成,是探索复杂生命过程的基础。蛋白质相互作用PPI网络可看作是由多个蛋白质复合物构成,但由于PPI数据存在噪声等问题,导致识别准确率不高。因此,识别蛋白质复合物并理解其功能特性成为生物学中的热点问题。构建PPI加权网络并设计蛋白质复合物识别算法可用以解决这一问题。本文主
移动通信技术、全球定位技术和物联网技术的蓬勃发展,催生了海量的交通数据。通过采集道路运输过程中“人-车-环境”的状态数据,利用机器智能对这些数据进行深度挖掘和融合分析,有利于发现车辆隐含的交通行为特征,特别是检测驾驶人可能存在的交通违法行为,对于防范和减少交通事故的发生具有非常重要的意义。为此,本文综合考虑驾驶人、车辆和环境三方面的交通数据,利用仿生神经网络技术对轨迹数据进行异常检测,利用机器视觉
随着信息技术的快速发展,数据存储的需求也在快速增长。虽然云存储技术的出现解决了数据存储需求快速增长的问题,但与此同时云存储技术用户与数据物理分离的特点也带来了诸多的数据安全问题。在数据存储安全方面,云存储服务器的硬件故障、系统的软件问题以及人为操作不当等问题威胁着数据完整性安全。在数据使用安全方面,用户在上传数据后就失去了数据的物理访问控制权,转由云存储服务提供商掌握,数据在使用过程中存在非法拷贝
在计算机视觉任务中,基于图像的人体行为识别研究是一项非常具有挑战性的工作。由于其缺少时域信息以及极易受到人体姿态、场景和光照等因素的干扰,因此如何有效地提取图像中的空间线索信息来表征人体行为是目前基于图像人体行为识别研究所重点关注的问题。近些年来,随着深度学习的快速发展,以卷积神经网络为代表的深度学习模型在计算机视觉领域中取得了巨大的成功,进一步促进了图像行为识别研究的发展。本文基于深度学习方法对
频繁项集挖掘已经成为数据挖掘领域的一个热门研究,被广泛应用于商业决策、经济学、医疗学和生物信息学等领域。人们在做决策时可以通过挖掘频繁项集来获取许多有价值的信息,但在频繁项集挖掘和发布的过程中难免会带来隐私泄漏的风险。因此,如何在不泄漏隐私的前提下高效地进行频繁项集挖掘是目前的一个研究热点。与此同时,考虑到目前无论线上还是线下的实时数据也正在呈指数级别的增长的情况,本文还研究了如何在动态场景下隐私
大数据与移动通信领域的发展促进了智慧交通的进步,越来越多的学者加入了对轨迹数据挖掘的研究工作中。移动硬件设施的升级为轨迹数据挖掘工作提供了大量的时空轨迹数据,但对于这些数据的质量分析往往被忽略,匆忙投入到具体实验研究中,带来的结果往往是不可靠的。数据需要经过科学的分析与评估,针对性的数据清洗,将数据完好的假象进行剥离,才会使后续的研究更有意义。本文分析了轨迹数据质量存在的问题,主要分为三类,即重复
软件老化是指随着软件系统的长时间运行,系统出现性能下降、系统宕机、甚至软件完全失效等现象。移动端设备在执行视频直播、边缘计算、移动端游戏等高负载、高功耗应用时,极易发生软件老化,从而严重影响用户的使用体验。准确检测识别安卓系统软件老化的发生,进而执行抗衰操作提升用户的使用流畅度,对于安卓软件高质量运行重要的意义。然而,随着安卓操作系统的不断发展以及应用程序种类的愈加复杂,软件老化现象在安卓系统下的