关系库中面向Semantic Cloud的关键词查找技术的研究与实现

来源 :东北大学 | 被引量 : 0次 | 上传用户:zy2000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在过去的数十年中,关系数据库系统得到了极大的发展,而且被应用到人们生活中的各个角落。同时,人们对数据管理的需求,尤其是数据查找的需求不断增长。但是在这方面,关系数据库自身却不能够满足人们这种不断增长的需求。关系数据库关键词查找技术(Relational Database Keyword Search, RDBKWS)的出现使得用户不需要任何数据库专业知识,和底层数据库模式的知识,就像简单的使用搜索引擎查询一样获取数据库中的相关数据。但是传统的RDBKWS技术只返回匹配关键词的结果,而不注重结果之间隐含的语义关系。首先,本文提出了语义云(Semantic Cloud)的概念,旨在将RDBKWS结果之间隐含的语义关系返回给用户。基于此,本文提出了面向语义云的单关键词查找策略和多关键词查找策略;在单关键词查找策略中,本文提出了语义框架(semantic frame)的概念,将包含关键词的元组按照语义框架生成SF结果,SF结果是包含关键词的元组根据语义框架连接数据库数据而成,之后将其处理成语义云形式返回给用户。在多关键词查找策略中,本文在传统基于模式的RDBKWS技术基础之上,提出了一种新的候选网络,语义候选网络(SCN),SCN在扩展时输出的结果可以不满足所有的关键词,使得候选网络能够处理“或”语义下的多关键词查找;之后本文提出了多关键词语义云生成算法,语义云生成算法中将具有相同元组的传统RDBKWS结果整合成语义云返回给用户。接下来,本文提出了面向语义云的打分策略,即SC-TF-IDF策略。该策略是在针对传统RDBKWS技术返回结果的TF-IDF打分方法的基础上提出的,该策略的核心思想就是根据组成语义云的多个传统关键词查找结果的TF-IDF得分对语义云进行打分。之后本文针对打分策略进行了改进,并通过实验验证了改进后的打分策略对于结果排序的准确性和召回率有了一定的提高。
其他文献
无线传感器网络是一种新型的网络,它集成了传感器、嵌入式计算、网络和无线通信四大技术,它的节点可以相互协作地监测、感知和采集各种客观世界的信息,并对其进行处理,再传送
可扩展标记语言(XML, Extensible Markup Language)常被应用于简化数据的存储和共享,同时它也逐渐成为了一套规范的语义标签语言,使得人们在计算机中定义数据类型更加容易。
随着信息技术的普及和发展,互联网上的网页数量呈指数级增长。人们要想在短时间内准确的得到自己想要的信息,就要预先对互联网信息就行分类整理。由于网页中的信息大部分是文
移动通信领域的飞速发展,3G在中国正式商用一周年,使手机应用领域得到了巨大的发展。3G推动了BREW平台在手机终端应用领域的飞速发展,也推动了与人们日常生活息息相关的移动
随着Internet的发展,传输层单穴的端到端通信协议如TCP.UDP在传输性能、容错性和安全性等方面皆受到了极大的挑战。传输层多穴的端到端通信协议如基于SCTP的同时多路传输CMT(
随着信息时代的到来,人们需要分析处理越来越多的数据,而这些海量数据的背后隐藏着大量的人们所需要的规则和知识,数据挖掘就是随着人们的这一需要应运而生的。虽然最近几十
随着计算机内存的不断增大,内存数据库逐渐成为研究的热点。单线程在线事务处理模型在内存数据库中被广泛使用。单线程在线事务处理模型基于数据库静态的分区信息,为每个分区
随着国内高校规模的迅速扩大和教育体制的不断改革,高校教务管理工作量大幅度增加,其复杂性也越来越大,这使得高校教务管理工作的信息化和网络化势在必行,开发高效的基于网络
语义Web作为当前Web的扩展,旨在使得Web中的信息具有语义,从而能够被计算机理解,便于人和计算机之间的交互与协作。本体是领域知识共享的形式化描述,语义Web的实现很大程度上
近几年来,随着生物信息学迅速发展,产生了大量的生物数据,对这些生物数据的研究和分析对于指导生命科学研究、揭示生命起源和进化的规律有着重大的意义。生物序列与生物序列