结构化数据的自然语言接口技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:sunzhiqiang7310
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今互联网上信息繁杂,存在多种多样的信息格式,质量参差不齐。其中结构化数据是众多种类的数据中质量最高的一类,它包括关系数据库、本体、XML数据库等。互联网上已有的结构化数据非常丰富,并且一直在快速增长,具有很大的利用价值。结构化数据的传统查询方式一般要求用户熟悉结构化数据的某种特定的形式化查询语言(如SQL)以及该数据的结构,然后根据自身的信息需求构造查询语句进行查询。而结构化数据的自然语言接口允许用户以自然语言的形式对结构化数据进行查询,不要求用户熟悉查询语言和数据的结构,是一种更为友好的信息获取方式,极大地提高了结构化数据的易用性。因此,结构化数据的自然语言接口的研究具有非常重要的现实意义。同时,结构化数据的自然语言接口即为结构化数据上的自动问答,而自动问答一直是自然语言处理和信息检索领域的热点,所以结构化数据的自然语言接口也具有重要的研究价值。结构化数据的格式不同,对应的自然语言接口的技术也因而不同。本文主要对关系数据库和语义网本体这两大类最常见的结构化数据进行了自然语言接口的研究。对于关系数据库的自然语言接口,我们提出了基于最短路和基于序列标注的两种方法。最短路的方法过于简单机械,效果不佳。序列标注的方法效果较好,但需要大量标注语料。总结关系数据库的自然语言接口实验的经验和教训,我们又选取语义网本体进行了自然语言接口的实验。我们在语义网本体上提出的基于实体关系路径搜索的方法取得了最佳的效果。实验表明,我们在关系数据库和语义网本体上都构建了能取得较好效果的自然语言接口系统。相比而言,语义网本体更适合作为自然语言接口的数据格式。
其他文献
在信息时代里,信息安全已经变得越来越重要,密码学是保障信息安全的一种基本手段。传统的密码系统都是基于口令或密钥的,而这些口令或密钥容易受到字典攻击,很难记忆和容易被非法
层状岩体是由多种不同属性、不同厚度岩层按某种方式组合而成的天然复杂岩体。近年来,随着GIS和地理空间信息技术的发展,三维可视化技术在层状岩体研究方面发挥着越来越大的
随着电子商务的蓬勃发展,电子商务协议的研究越来越深入。交换协议是电子商务协议中很重要的一类,可以通过对交换协议的建模和形式化分析研究的结果去指导交换协议的设计或弥
随着计算机系统在社会生活中的广泛应用,人们对其可靠稳定运行能力的要求也越来越提高。操作系统内核是计算机系统中最重要的部分,它包括了操作系统最基本的如内存管理、文件
视觉信息的复杂性使得图像处理比较耗时,从而使得基于图像内容的搜索系统后台数据更新较慢,同时为了缩短用户的前台响应时间,传统的图像检索系统不得不选取速度快但效果并非最佳
药理学、神经生理学和毒理学等领域常采用实验鼠自发活动实验进行研究工作,实验鼠自发活动属于动物行为学研究的内容。动物行为学的早期研究,主要通过人为观察和记录实现对动
信息化产业技术的飞速发展极大的改变了人们获取利用信息的方式,人们越来越多的是通过电子文件进行传播信息。针对煤炭这一特定领域而言,各类电子煤质文件呈爆炸式增长。面对
随着监控系统的普遍应用,如何有效地对不明身份的人进行身份识别已经成为所有人关心的话题。步态识别,即根据人行走时的姿态进行身份识别,因具有远距离、非侵犯、难以模仿和
三维数字化牙齿模型是计算机辅助口腔正畸系统的基础。在计算机辅助口腔正畸的过程中使用三维数字化牙齿模型不仅可以随时观测牙齿模型记录正畸治疗进展中的数据,同时也易于
仿真系统中的智能体决策过程是人工智能领域的一个重要的问题,人工智能领域的很多研究成果都可以应用于不同的仿真系统的智能体控制中,并得到良好的效果。但同时,不同的仿真