融合文本属性和数值属性的语义Top-N查询处理

来源 :河北大学 | 被引量 : 0次 | 上传用户:xulingxuan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,对于关系数据库中Top-N查询的研究已成为国际前沿课题之一。Top-N查询是很有效的现代查询,它弥补了传统数据查询的不足,不仅能够找到与查询条件完全匹配的结果也能找到与查询条件相近结果,并按排序函数对输出的结果进行排序。语义Top-N查询是借鉴语义搜索中语义扩展的技术,通过语义Top-N查询能查找到与查询条件语义相近的结果,其相关程度由语义距离或相似度来度量。目前,对数值属性Top-N查询的研究取得了很多成果,但对文本属性的语义Top-N查询的研究相对较少,并且大多数的研究只针对文本属性或数值属性两者之一。然而,许多实际中的查询可能同时涉及文本属性和数值属性,针对这种情况,本文讨论能够同时对文本和数值两个属性的Top-N查询,查找文本和数值都与查询条件相近的结果,并且查询的排序函数是由文本属性和数值属性两者共同确定。为有效融合文本属性和数值属性,本文通过统计和训练的方法找到一种融合语义距离和数值距离的排序函数,在查询时这个函数能够有效地平衡语义距离和数值距离对查询的影响力度,以保证查询的合理性和高效性。依据得到的排序函数,本文给出了融合文本属性和数值属性的Top-N查询处理方法,其主旨是:通过WordNet语义地扩展数据集中的元组词,生成亲缘词集合,通过亲缘词集合创建一个与元组词语义相关且存储了相关数值信息的索引,利用该索引和简单的SQL Select查询语句快速得到查询的候选元组集,然后用上述排序函数计算候选元组的综合距离并排序,最终得到Top-N结果。本文通过大量的实验来验证这个融合文本属性和数值属性的语义Top-N查询处理方法,实验结果显示出,该方法在查询时间和准确性上是很有效的。
其他文献
膜计算(又称P系统)是从生命细胞的结构与功能以及组织和器官中细胞群的协作中抽象出来的计算模型。P系统是一类分布式、并行性计算模型。从结构上看,P系统有三种形式:细胞型P系统
垃圾网页是指网页制造者采用迷惑或欺骗搜索引擎的手段,使得网页在检索结果中的排名高于实际排名的行为。这种页面不仅影响搜索引擎检索的准确率和效率,也严重恶化了用户的搜
随着嵌入式技术、传感器技术、网络技术以及无线通信技术的不断发展,无线传感器网络作为一种新兴的“智能”网络受到了人们广泛的关注。无线传感器网络已经应用到了人类生产
闪存作为一种新型的非易失性固态存储器,由于其体积小、非易失、读写速度快、抗震性强以及能耗低等优良特性被广泛应用于各领域的存储产品中,尤其是近年来基于闪存的固态硬盘技
二维动画以其独特的风格深深吸引着广大爱好者和研究者,由于其具有丰富的表现力,因此也别广泛应用于娱乐、广告、教育等领域。但是,由于二维动画的制作过程十分复杂,产生的周期长
本文研究的是单帧图像的超分辨率重建问题。重点关注图像柔边重建效率和稀疏重建算法,并在改进的基础上将它们联合起来,其中柔边重建关注的是柔化边缘锯齿,稀疏重建运用字典库的
在软件系统中,有许多需要定期执行的任务。按照当前的业界通用做法,这些任务主要是通过操作系统的定时调度服务来运行的,如Unix和Linux系统的crond服务。这种方式相对简单,对小型
数据库自然语言接口(NaturalLanguageInterfacetoDatabase,NLIDB)因其简化了人机交互的过程,使用户可以用自己熟悉的语言查询数据库而广受欢迎,因而自然语言查询接口的研究具有
海量数据是数字时代明显的特征,数据大规模增长使得数据处理变得异常困难,样例选择是处理海量数据的主要方法之一。样例选择的目的是去除原始数据集中的冗余样例和噪音样例,从而
伴随着汽车保有量的快速增长,智能化的驾驶辅助系统获得了广泛关注。交通标志识别作为智能交通系统(Intelligent Transportationsystem,ITS)的一个重要组成部分,在上个世纪70年