基于知识库的中文关键词top-N关系查询处理

来源 :河北大学 | 被引量 : 0次 | 上传用户:hahaxine
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
鉴于关键词查询在IR和Web中检索文档的理论和技术方法,在关系数据库中支持自由态的关键词查询成为一个活跃的研究课题。关键词查询能够更好地适应Web数据库,不需要用户知道数据库模式和SQL等信息,其处理算法和排序方法都需要精心研究设计。目前,关键词查询的研究主要是针对英文文本属性,本文研究中文文本属性的关键词top-N查询,不但实现了IR-Style检索功能,而且能够处理中文的缩略词,实现了按字检索,避免了分词问题。由于中英文存在很大差异,无法将英文关键词查询技术直接应用于中文。本文给出的方法主旨如下:创建知识库存储数据库中中文文本属性和元组字的相关信息,并且运用此知识库建立索引,实现快速查询处理。对于一个关键字查询,通过索引,逐一匹配查询字和元组字,得到候选元组标识的集合。根据查询字和元组字匹配情况和知识库存储的相关信息,给出排序方法。用此方法对候选元组的标识进行排序,检索出候选元组的集合。对候选元组集合,进行查询短语匹配,以提高查询的准确率。最后返回top-N结果。本文建立了原型系统,在实际数据集上的实验结果表明所给出的方法在查询时间和准确性上是有效的。
其他文献
由于信息本身的价值已经远远高于计算机系统本身,数据容灾在现代社会已经越来越受到企业的关注。大规模数据存储需求的与日俱增,对于数据的保护显得尤为重要。由于各种灾难所导
缓冲区溢出是计算机系统中的十分普遍并极具危害性的安全漏洞。C编译器自身的不安全特性使得这种漏洞普遍存在,并随着C程序的广泛使用而被引入到未来的软件中。在实际中利用缓
长期以来,地形的二维静态表现形式难以完整、直观的描述真实的地形地貌。计算机三维可视化技术的不断发展,为地形的可视化提供了有力支持。今后,三维地形重现技术将在军事、工程
随着高速铁路的快速发展,高速铁路的网络接入成为高速铁路信息化建设的重点方向。本文通过对第五代移动通信核心技术的分析,结合当前高速移动场景网络接入的研究现状以及高速
经典粗糙集理论是一种处理不完整数据的有效方法,但它要求目标数据的分类必须精确。变精度粗糙集理论则是在经典粗糙集理论的基础上引入了错误分类率β,将经典粗糙集理论中的集
P2P(Peer-to-Peer,对等端到对等端)作为一种与客户机/服务器对立的网络架构,是近年来兴起的一种重要的网络应用模式。它在文件交换、对等计算、协同工作、搜索服务等方面都有着
随着计算机系统和互联网技术的发展,现在各企业对数据的依赖性逐渐增强,对数据完整性和安全性的要求也越来越高,各种数据容灾技术在这种需求背景下得到了迅速发展。连续数据保护
20世纪以来,随着计算机技术、通信技术、互联网技术的突飞猛进和电子商务、网上银行等的兴起,信息安全受到越来越广泛的关注,同时随着物联网、无线传感器、RFID标签的出现,分
作为模型的降维表示,中轴在模型检索、路径规划、模型表示、三维打印、有限元分析等方面获得了广泛的应用。然而,目前的三维模型中轴生成方法如瘦化法、Vonoroi图法、跟踪法等
随着新一代互联网规模地迅速增长,网络技术的不断完善与成熟,特别是交互式网络多媒体服务越来越广泛的应用,如何提供高水准的服务质量(Quality of Service,QoS)成为计算机网络领