【摘 要】
:
在度量空间,像数字图像、文档和DNA序列这样的对象通常用高维特征向量点和距离函数表达语义。如何高效的在度量空间中处理高维数据的相似查询是对等网络数据管理的基本问题。以往在这方面的工作有许多局限性,例如不能适应高度动态的网络;数据倾斜时,查询效率下降等。设计了一个高效的算法——Dragon——来处理度量空间中的相似查询.Dragon通过以下设计高效地处理查询:1)Dragon是建立在之前设计的对等系
【机 构】
:
东北大学信息科学与工程学院 沈阳 110004
【出 处】
:
第二十五届中国数据库学术会议(NDBC2008)
论文部分内容阅读
在度量空间,像数字图像、文档和DNA序列这样的对象通常用高维特征向量点和距离函数表达语义。如何高效的在度量空间中处理高维数据的相似查询是对等网络数据管理的基本问题。以往在这方面的工作有许多局限性,例如不能适应高度动态的网络;数据倾斜时,查询效率下降等。设计了一个高效的算法——Dragon——来处理度量空间中的相似查询.Dragon通过以下设计高效地处理查询:1)Dragon是建立在之前设计的对等系统——Phoenix——之上的,Phoenix是最优的对等网络.2)采用了集中数据库算法(iDistance)的部分方法来处理度量空间中的相似查询.3)为Phoenix系统中的每个结点设计了一个保序命名算法和路由剪枝算法来处理范围和KNN查询.最后,通过大量的实验验证了该设计——Dragon——优于以前的算法。
其他文献
本文研究了具有随机输入状态稳定(SISS)零动态的随机非线性系统的全局输出反馈镇定问题,用积分反推法构造性地设计了一个输出反馈控制律,在一般性条件下,证明了闭环系统概率意义下的全局渐近稳定性.所得结果将文献[6]从被控系统没有不可观测动态情形推广有SISS不可观测动态的情形,将[10]的线性反馈框架拓展到非线性反馈控制,将[11]的确定性非线性系统推广到随机非线性系统.
读者到图书馆借书时,要在短时间内借到自己满意的图书并不是一件容易的事.提出了一种基于决策树的图书推荐模型,根据图书馆中所存储的读者借阅信息进行分析,从图书的主要读者类型、借阅效率等方面向读者推荐.为了让读者有直观的认识,运用了多种可视化技术将图书借阅数据显示给用户,也能帮助用户快速检索反映其兴趣偏好的图书.
GML是一种基于XML、用于地理空间信息表示和交换的地理标记语言.随着越来越多的空间数据以GML格式发布和存储,查询GML空间数据已成为亟待解决的问题。GML基于XML,XML查询技术也可应用于GML,但GML许多不同于XML的特性使得这些查询技术并不完全适用于GML.W3C推出的XML标准查询语言XQuery只适用于GML非空间数据查询.在XQuery的基础上,参考GML查询语言GQL,添加空间
XML关键字搜索是一个用户友好的信息发现方法,非常适用于XML文档不存在schema的情况,但用户在XML关键字搜索中很难准确地表达搜索语义。现有的一些XML关键字搜索的研究是基于SLCA(最小最低公共祖先)方法,这种方法返回一组被称为SLCA的结点,一个SLCA结点满足:1)标签中或者后代结点的标签中包含所有关键字;2)没有任何一个后代结点是SLCA.SLCA方法的主要缺点是可能会丢失一部分有意
压缩数据库技术是海量数据管理的重要技术之一.利用海量高频度数据自身特点,提出了一种基于属性划分的海量高频度关系数据压缩存储方法。该方法通过存储非高频度数据的数值及其位置信息来减小存储海量数据的空间需求,从而有效地支持选择、投影、连接等基本操作.理论分析和实验结果表明这种压缩存储方法可以显著提高海量数据的存储效率和数据操作的性能.
P2P环境下的数据管理具有高可扩展性,可以为数以万计的用户提供数据管理服务.多维范围查询是数据管理系统中一项不可替代的基本查询功能.然而,当在P2P环境下一个范围查询涉及大量节点时,执行查询的时间代价和网络带宽消耗非常巨大而且无法避免.提出了一种P2P环境下的anytime多维范围查询处理方法。在查询处理过程中,算法不断地计算当前已获得结果的质量。如果已获得结果的质量满足用户的要求,查询处理算法可
随着硬件技术不断发展,特别是容量越来越大的内存,具有高性能的内存数据库逐渐成为人们研究的热点.然而,内存数据库的高性能却严重依赖于内存容量,由于内存容量受内存技术、服务器技术和操作系统位数的制约,可扩展性不好。针对这一问题,我们提出了可扩展内存数据库系统ScaMMDB.首先,我们介绍了ScaMMDB的体系结构,并重点介绍了RCAP(远程列访问协议)和EPM(扩展并行MAL语言);我们从体系结构和列
互联网上的信息与日俱增,随着信息检索技术的发展,用户已经能够通过Google,Yahoo,Baidu等搜索引擎提供和查询接口查询互联网中大量的文本数据库而得到一部分用户所需要得到的信息.然而,互联网上的更多信息是包含在网页后台的关系数据库中的,访问这些数据库需要用户了解数据库的数据模式,并且熟悉结构化查询语言,这对于普通用户来说太困难了.因此,提出了一种新的查询算法,并且在查询算法中加入短语的识别
基于马尔可夫链描述软件系统控制转移的动态特性,研究了基于马尔可夫分析方法的可信软件的可靠性建模问题。针对模块化的软件系统,综合模块自身的可靠性和模块间的转移调用对其在系统中的重要程度两个方面,分别定义了模块的可靠性函数和模块在系统中重要程度的函数,最后给出了系统可靠性的建模方法和相关函数.
正确发现流程实际运作情况对工作流管理有着重要意义。流程挖掘抽取系统日志信息,挖掘流程真实的运作模型.给出一种可学习循环结构的流程挖掘方法。首先根据工作流实例中任务间的执行顺序,把日志数据划分成不同聚类,缩减挖掘过程中的搜索空间.然后,通过扫描日志识别出处于模型最外层循环结构的记录,采用迭代方法来挖掘循环结构模型,并将该循环结构模型添加进原工作流模型中.最后,基于该算法实现了工作流模型挖掘原型,实验