基于多表数据库的中文关键词Top-N查询处理

来源 :河北大学 | 被引量 : 0次 | 上传用户:yin_guohan163
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关键词查询的理论和技术在信息检索和Web搜索引擎中得到了广泛深入的研究和应用。传统数据库管理系统仅支持模式匹配,不支持自由形态的关键词查询。鉴于此,近年来关系数据库上的关键词查询处理的研究成为备受关注的前沿课题之一。传统关系数据库系统运用结构化查询语言(SQL)对数据库进行操作,需要用户掌握SQL和数据库模式,这对于普通用户是困难的。此外,对返回的查询结果,传统数据库系统只能进行简单排序,用户要想从中获取最感兴趣的信息是很困难的。目前,关键词查询的研究主要针对英文关键词,因此针对具有多表的数据库,本文给出一种中文关键词top-N查询处理方法。此方法创建索引表存储从数据库中析出的中文元组字及其相关信息,进而构造索引用以快速匹配查询关键字,借鉴IR的相似度公式构造适合中文关键词查询的排序策略。对于一个中文关键词查询,利用索引快速匹配查询字和元组字得到相应信息,并根据这些信息创建候选元组生成链表和SQL查询语句,进而得到候选元组及其与查询之间的相似度,最终按相似度返回Top-N结果。此方法实现了按字搜索及中文的缩略词的查询处理。最后利用真实数据集进行实验,实验内容包括对查询相应时间和准确性的验证,实验数据显示本文方法是有效的。
其他文献
场景图像分类在图像检索和视频检索领域得到广泛的应用,已成为计算机视觉领域的一个研究热点。场景图像分类的主要难点问题是低层视觉特征与高层语义之间存在―语义鸿沟‖。近
无线传感器网络通常由部署在特定区域的数量庞大的微型传感器组成,这些传感器节点之间互相协作对需要监测的目标区域进行监控并实时采集需要的数据。节点采集到的数据通过节点
随着网络的广泛应用和即时通信(Instant Messaging, IM)软件的迅猛发展,利用即时通信系统和即时通信协议的漏洞或者技术特征进行攻击,并在即时通信网络内传播的即时通信蠕虫(IM
信息技术在现代生产生活各方面的应用越来越广泛,作为信息技术核心支撑的软件系统也变得越来越重要,其应用正在逐步渗透到社会的各个领域中去。时至今日,现在各行各业中的应
随着科技的不断发展、技术的不断进步,在计算机、互联网后,物联网(Internet of Things, IOT)逐渐得到广泛的研究和发展。然而,由于物联网的自身的特性,传统意义上的互联网的
相对于传统光学图像,深度图像能直接给出距离,几何特征等信息,并且不受纹理,光照等环境因素的影响。飞行时间法三维无扫描传感器通过测量发射信号与反射信号之间的相位差来产生目
随着信息技术的不断进步和计算机网络的飞速发展,每天在互联网上传播的信息和知识达到以往数倍。同时,现实领域中也产生了海量的双语数据,这些数据对于统计机器翻译研究无疑是一
遥感具有快速获取全球以及大区域空间信息的独特优势,而且空间信息资源的掌控权是国家综合国力和核心竞争力的重要标志,发展遥感对地观测系统与占领未来战略性新兴产业制高点
在自然科学、社会科学和工程技术的很多领域中,都不同程度地涉及到对不确定因素的处理。目前已有许多处理不确定性的数学工具,如粗糙集、模糊集和概率论。其中,Pawlak粗糙集作为
随着科技的发展,数字内容在许多领域都得到了广泛应用,比如教育、医学以及娱乐等,这就不得不涉及到数据内容版权管理的问题。在基于内容的数字版权检索系统中,由于数字多媒体