基于多表数据库的中文关键词Top-N查询处理

来源 :河北大学 | 被引量 : 0次 | 上传用户：yin_guohan163

【摘要】

：

关键词查询的理论和技术在信息检索和Web搜索引擎中得到了广泛深入的研究和应用。传统数据库管理系统仅支持模式匹配，不支持自由形态的关键词查询。鉴于此，近年来关系数据库上

【作者】

：

潘丽娟

【机构】

：

河北大学

【出处】

：

河北大学

【发表日期】

：

2013年期

【关键词】

：

关系数据库中文关键词索引排序策略

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

关键词查询的理论和技术在信息检索和Web搜索引擎中得到了广泛深入的研究和应用。传统数据库管理系统仅支持模式匹配，不支持自由形态的关键词查询。鉴于此，近年来关系数据库上的关键词查询处理的研究成为备受关注的前沿课题之一。传统关系数据库系统运用结构化查询语言(SQL)对数据库进行操作，需要用户掌握SQL和数据库模式，这对于普通用户是困难的。此外，对返回的查询结果，传统数据库系统只能进行简单排序，用户要想从中获取最感兴趣的信息是很困难的。目前，关键词查询的研究主要针对英文关键词，因此针对具有多表的数据库，本文给出一种中文关键词top-N查询处理方法。此方法创建索引表存储从数据库中析出的中文元组字及其相关信息，进而构造索引用以快速匹配查询关键字,借鉴IR的相似度公式构造适合中文关键词查询的排序策略。对于一个中文关键词查询，利用索引快速匹配查询字和元组字得到相应信息，并根据这些信息创建候选元组生成链表和SQL查询语句,进而得到候选元组及其与查询之间的相似度，最终按相似度返回Top-N结果。此方法实现了按字搜索及中文的缩略词的查询处理。最后利用真实数据集进行实验，实验内容包括对查询相应时间和准确性的验证，实验数据显示本文方法是有效的。

其他文献

基于子空间相似度和四元数的场景图像分类方法研究

场景图像分类在图像检索和视频检索领域得到广泛的应用，已成为计算机视觉领域的一个研究热点。场景图像分类的主要难点问题是低层视觉特征与高层语义之间存在―语义鸿沟‖。近

学位

子空间相似度四元数奇异值分解场景图像分类特征提取算法

基于流密码的无线传感器网络安全若干问题研究

无线传感器网络通常由部署在特定区域的数量庞大的微型传感器组成，这些传感器节点之间互相协作对需要监测的目标区域进行监控并实时采集需要的数据。节点采集到的数据通过节点

学位

无线传感器网络网络安全流密码代数攻击同态加密数据融合

基于二次检测的IM蠕虫传播模型研究

随着网络的广泛应用和即时通信(Instant Messaging, IM)软件的迅猛发展，利用即时通信系统和即时通信协议的漏洞或者技术特征进行攻击，并在即时通信网络内传播的即时通信蠕虫（IM

学位

即时通信蠕虫网络安全网络拓扑传播模型计算机网络captcha验证流量检测

一种基于软件源代码级的验证技术研究

信息技术在现代生产生活各方面的应用越来越广泛,作为信息技术核心支撑的软件系统也变得越来越重要,其应用正在逐步渗透到社会的各个领域中去。时至今日,现在各行各业中的应

学位

模型检测源代码控制流图SPINPromela

物联网资源寻址中物品编码和物品发现的优化研究

随着科技的不断发展、技术的不断进步,在计算机、互联网后,物联网(Internet of Things, IOT)逐渐得到广泛的研究和发展。然而,由于物联网的自身的特性,传统意义上的互联网的

学位

物联网资源寻址优化分布式哈希表

流形空间内的飞行时间法三维成像障碍检测研究

相对于传统光学图像，深度图像能直接给出距离，几何特征等信息，并且不受纹理，光照等环境因素的影响。飞行时间法三维无扫描传感器通过测量发射信号与反射信号之间的相位差来产生目

学位

飞行时间法深度图像基本距离簇障碍检测流形空间三维成像

云翻译平台下基于海量语料的统计机器翻译方法研究

随着信息技术的不断进步和计算机网络的飞速发展，每天在互联网上传播的信息和知识达到以往数倍。同时，现实领域中也产生了海量的双语数据，这些数据对于统计机器翻译研究无疑是一

学位

机器翻译语料处理领域分类云计算

中国遥感对地观测系统(CNEOS)载荷优化配置研究——以地表反射率产品获取为例

遥感具有快速获取全球以及大区域空间信息的独特优势,而且空间信息资源的掌控权是国家综合国力和核心竞争力的重要标志,发展遥感对地观测系统与占领未来战略性新兴产业制高点

学位

遥感对地观测系统载荷优化配置地表反射率数据获取需求分析

决策系统中属性约简的研究

在自然科学、社会科学和工程技术的很多领域中，都不同程度地涉及到对不确定因素的处理。目前已有许多处理不确定性的数学工具，如粗糙集、模糊集和概率论。其中，Pawlak粗糙集作为

学位

粗糙集覆盖粗糙集软集双射软集决策系统属性约简

基于ANN的数字内容版权检索技术研究

随着科技的发展,数字内容在许多领域都得到了广泛应用,比如教育、医学以及娱乐等,这就不得不涉及到数据内容版权管理的问题。在基于内容的数字版权检索系统中,由于数字多媒体

学位

基于内容数字版权检索高维向量相似性检索近似最近邻搜索改进的局部敏感哈希索引

基于多表数据库的中文关键词Top-N查询处理

其他学术论文