数据库汉语查询接口技术的研究与实现

来源 :南京大学 | 被引量 : 0次 | 上传用户：zgymm2008

【摘要】

：

随着信息技术的发展，人们越来越强烈地希望用自然语言同计算机交流信息。如果计算机能够“理解”自然语言，用户就能够通过自然语言使用数据库、专家系统、管理信息系统等各种软

【作者】

：

郝亮

【机构】

：

南京大学

【出处】

：

南京大学

【发表日期】

：

2010年期

【关键词】

：

数据库接口技术消歧算法汉语系统工作原理

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着信息技术的发展，人们越来越强烈地希望用自然语言同计算机交流信息。如果计算机能够“理解”自然语言，用户就能够通过自然语言使用数据库、专家系统、管理信息系统等各种软件。数据库自然语言接口(Natural Language Interface of Database NLIDB)就是旨在使用户以某种自然语言（如汉语）的形式访问存储在数据库中的信息，从而为不熟悉英语和不了解数据库技术的用户提供方便。它是多学科交叉的产物，涉及自然语言处理，数据库，人工智能等多方面的研究。目前，国外围绕着英、日等语种的这方面的研究已渐趋成熟，但是由于汉语存在词与词之间界限不明显、语法复杂、语义繁多等诸多特点，对汉语处理技术的不成熟极大的限制了NLIDB的应用拓展。　　本文首先介绍了数据库自然语言查询接口，提出了本课题的研究背景和现状。在对已有技术的分析和总结的基础之上，围绕着国内NLIDB存在的种种问题，本文提出了一些新方法和新思路，并设计实现了一个汉语NLIDB原型系统。该原型系统的实现主要涉及三个方面的任务:分词及标注、中间代码的生成、中间代码向目标代码的转换。在分词过程中，我们借鉴了“数据库语义”的思想，提出了基于词汇数据库语义的分词模型。我们首先用基于TRIE树字典的最大匹配算法及回朔机制对查询语句进行分词处理并消除词汇的切分歧义，然后用模式规则合并具有完整数据库语义的词汇。我们对几种中间语言进行比较之后，选择了语义依存树作为查询语句向SQL转换的过度结构，提出了基于NIVRE算法的依存文法分析模型，然后用基于数据库对象相关语义图的消歧算法来消除数据库语义歧义。在依存树向SQL语句转换过程中，我们提出了新的集合块划分算法，以集合块为单位完成依存树向SQL语言的转化。　　本文的主要研究工作及其成果包括以下几个方面:　　1)将数据库语义依存树作为查询语句向SQL转换的中间形式。在此基础上，构建了基于Nivre算法的数据库依存文法分析模型DRAM，将经过数据库分词及标注后的查询语句转化为语义依存树;　　2)将歧义问题分为切分歧义和数据库语义歧义，在数据库分词和依存文法分析两个阶段分别解决切分歧义和数据库语义歧义问题，提出了基于数据库对象相关语义图的消歧算法，有效解决了数据库语义歧义问题;　　3)提出了基于中心节点的集合块的划分策略及其向SQL语句的转化方法，能够有效的将各种形式的语义依存树向SQL语句转化。　　最后，本文构建了一个原型系统，并给出了试验结果及分析，试验结果说明本文的研究工作基本达到了预期效果。

其他文献

基于视觉的数据密集型网页信息抽取

随着Internet的飞速发展，特别是Deep Web（暗网）的发展，Web信息资源越来越丰富。网上出现了大量数据质量较高、领域性较强的信息，但是能够快速、准确地获取这些信息的途径却比较有

学位

数据密集型网页视觉信息信息抽取技术工作原理检索系统

基于地址池和地址队列的快速层次型移动IPv6优化方案

随着因特网和无线通信技术的发展，越来越多的移动设备需要接入因特网。为了支持移动设备接入因特网的需求，IETF制定了移动IPv6以提供移动数据解决方案。但是移动IPv6存在切换延

学位

地址重复检测乒乓运动地址池地址队列

基于时态约束关联规则挖掘方法的研究

数据挖掘的概念自产生之初，就受到了研究学者们的广泛关注。经过几十年的发展，许许多多的新概念、新方法被人们探索出来，并得到传承和改进。特别是最近几年，一些基本概念和基本方

学位

数据挖掘关联规则时态约束ISS-TM算法项目集格空间

商业银行个人信用风险管理系统研究

近年来，个人消费信贷蓬勃发展，商业银行的个人信贷业务所面临的信用风险逐渐成为影响商业银行最重要的风险。在我国的信用基础以及信用评估技术还相对薄弱的情况下，借鉴国外的信

学位

个人信用风险信用评估模型信用风险度量模型C/S系统商业银行风险管理系统Logistic回归

多关系数据流挖掘算法与应用研究

本文的课题背景为国家自然科学基金“多关系频繁模式挖掘模型、方法库的知识发现机理、模型与算法研究”(项目批准号：60875029)。　　多关系数据流环境，是一种现实存在而又复

学位

多关系数据流挖掘复杂数据环境周期采样蛋白质二级结构复合金字塔模型

曙光5000高效能计算机系统的互连网络研究

研制具有千万亿次计算能力的并行计算机系统是当前的重大挑战之一。曙光5000高效能计算机系统是中国科学院计算技术研究所国家智能计算机中心开发的面向千万亿次计算的超级计

学位

互连网络交叉开关交换芯片多轨网络集合通信多播通信大规模网络模拟

基于VQ与HMM的说话人识别技术研究

说话人识别是根据语音信号中反映说话人生理和行为的个性特征自动鉴别说话人身份的一种生物认证技术,可广泛应用于电话银行、数据库访问、计算机远程登录、安全验证、自动控

学位

说话人识别隐马尔可夫模型矢量量化线性预测倒谱系数Mel频率倒谱系数

基于GPS的以太网授时系统

在全超导非圆截面核聚变实验装置EAST大科学工程中,包含了很多个子系统,不同系统之间需要进行数据交换,分工合作。如在分布式计算环境中,由于每个主机时间不同步,会造成同一

学位

基于FeaVer的MINIX 3文件系统形式化验证和改进

如何保证软件系统的正确性一直是人们所关注的问题，为了能够准确、快速地找到软件系统中存在的问题，研究者们研发出了对软件系统进行形式化验证的工具。在本文中，我们将使用FeaV

学位

FeaVerMINIX 3文件系统形式化验证源代码可复用性

运动背景下的运动目标检测

运动目标检测是当前图像技术研究应用的热点和焦点，作为运动目标视觉分析中的一项核心技术以及底层问题，是后续各种高层次的视频处理和应用理解的基础，同时也是视频监控技术自动

学位

运动目标检测特征点提取全局运动估计背景运动补偿相邻帧差法

数据库汉语查询接口技术的研究与实现

与本文相关的学术论文