一种支持大规模稀疏数据表上相似性查询的索引设计

来源 :第二十五届中国数据库学术会议(NDBC2008) | 被引量 : 0次 | 上传用户：ivsou

【摘要】

：

【作者】

：

李博多李建中高宏彭丽萍

【机构】

：

哈尔滨工业大学计算机科学与技术学院哈尔滨 150001

【出处】

：

第二十五届中国数据库学术会议(NDBC2008)

【发表日期】

：

2008年5期

【关键词】

：

大规模稀疏数据表相似性查询索引设计 Web 2.0 倒排索引

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

基于Web 2.0的社区系统在互联网上的出现引出了全局表的概念(universal tables),并使得大规模稀疏数据表(large sparse table,LST)得到了广泛的应用。一个LST通常包括数千个以上的属性和百万条以上的记录,并且拥有大量的未定义值.而相似性查询是社区管理系统中最常见的查询.除了一种基于属性的倒排索引之外,目前针对LST的研究只集中在数据表的存储方法上.已有的倒排索引是与数据内容无关的,不能充分提高查询的效率。本文提出了新的与数据内容相关的索引方法。基于真实数据集上的实验表明本文方法在查询效率上显著优于现有的技术,并保证了更新的效率。

其他文献

基于动态事件概率模型的高效RFID数据清洗算法

由于RFID技术采用的无线射频信号极易受外界条件干扰,导致RFID数据采集过程中漏读现象频频发生,降低了RFID应用中查询结果的准确性。目前解决漏读问题的算法主要是基于数据层的,这种做法会填补许多与查询无关的数据,浪费系统资源。在逻辑区域层的基础上提出了两种基于动态事件概率模型的数据清洗算法,即贪婪算法和相似度算法。它们主要对已知的数据进行学习来预测未知的数据.大量实验证明了该数据清洗算法的有效性

会议

RFID技术数据清洗事件概率模型查询无线射频信号

基于物件依赖关系的业务流程可达性分析

ACOM是一种基于物件(artifact)的有效的业务流程建模方法。现有研究表明基于物件实例的生命周期可达性问题是一个不可判定问题。提出了一种BR-artifact模型,该模型引入了业务规则约束的物件依赖关系,通过分析物件实例的生命周期和关键物件(key-artifact)实例的作用,构造了基于物件实例状态迁移的有限状态执行图,从而将生命周期可达性问题转化为状态执行图上的图可达性问题,即可判定性问

会议

业务规则物件依赖关系业务流程建模ACOM状态执行图

基于BCBF+HSet布卢姆过滤器的数据流计数

突发检测是数据流的固有问题之一,因其应用广泛而备受研究者关注.突发检测中的一个基本问题是如何保存数据流中所有元素的频数.提出了一个基于改良的计数型布卢姆过滤器BCBF+HSet保存所有元素频数的解决方案.与直观的数组存储方式相比,虽然引入了一定的错误率,但能显著减少存储空间.与两个经典的计数型布卢姆过滤器CBF和DCF相比,BCBF+HSet在存储空间、计算复杂性及错误率上更加适合数据流突发的情形

会议

数据流突发检测元素频数布卢姆过滤器BCBFHSet存储空间

AX-Tree:基于RDBMS的粒度自适应XML数据索引

提出了一种基于RDBMS的粒度可自动调节的XML索引结构AX-Tree,它是一种根据结点的路径信息建立的树状分层索引.AX-Tree能根据XML文档的结构分布自动调整索引结点的聚类粒度,寻求索引扫描速度和筛选能力之间的平衡,以达到更优的查询性能.展示了AX-Tree索引的结构及其构造算法、查询算法,并实验证明了AX-Tree索引的查询性能和文档适应能力.AX-Tree另一重要特性是索引基于关系数据

会议

XML文档数据索引AX-TreeRDBMS粒度自适应关系数据库查询转换

支持SaaS的互联网调查表自动生成系统

随着互联网的发展,针对特定用户的互联网调查已经是一种基本的获取所需统计信息的方法。然而,对于非专业人员,编制一张互联网调查表并做相应统计非常困难.即使是专业人员,编制起来也相当繁琐.因此,如果能够向用户提供SaaS(软件即服务),按用户的需求自动生成调查表并做出相应的调查统计,就大大减少了用户的麻烦.在详细考察了用户需求及系统易用性的基础上,对互联网调查表自动生成系统的体系架构和功能模块进行了设计

会议

互联网调查表自动生成易用性软件即服务SCA架构SaaS

基于开源的数字资源长期保存实验平台(THDP)的设计与实现

数字信息具有不稳定性和易逝性,读取数字资源的软硬件设备也随时面临过时和淘汰的危险,然而很多数字信息具有巨大的商业或学术价值,因此,数字资源的长期存取问题迫在眉睫.在遵循OAIS参考模型的前提下,利用一系列开源软件,设计了基于DSpace的数字资源长期保存实验平台的框架模型,并在Linux系统上进行了原型系统的实现,为数字资源长期保存的研究提供一个良好的实验和验证的环境.

会议

开源软件DSpace数字资源长期保存格式过时动态权限管理OAIS参考模型Linuz系统

中医古方挖掘:一种频繁药组发现与功效标注算法

中医方剂内药物配组的作用受方剂语境影响,药物搭配方式不同,功效则不同,药物配伍原理和机制尚不明确,是中医古方研究的重要内容.发现频繁药组,并对其进行功效标注可以多粒度、多维度、多方向,更深入地研究中药方剂药物配伍规律,对中医药学科研究具有重要意义,提出并形式化描述了该问题,讨论了相关性质,设计并实现了可直接进行多表关联分析的基于逆索引的2阶段频繁模式挖掘方法,讨论了算法特性。通过在真实古方数据集上

会议

数据挖掘关联规则频繁模式自动标注中医古方挖掘药物配伍

基于概念划分的Top-k空间偏好查询算法

Top-k空间偏好查询根据空间对象周围的特征性质对空间对象进行等级评价,并返回具有最高等级评价的k个空间对象.现有的Top-k空间偏好查询算法大多利用R树结构为空间特征数据建立索引.考虑使用网格索引组织二维空间数据,并提出基于概念划分的Top-k空间偏好查询算法,本文分别设计实现了基于范围查询和NN查询两种方式的Top-k空间偏好查询算法TopRAN-G与TopNN-G.通过真实数据集测试结果表明

会议

数据挖掘Top-k空间偏好查询网格索引概念划分R树索引

基于关系数据库的RDF数据存储

在语义网中,信息以及信息之间的关系使用元数据和本体库来表示,RDF和RDF Schema是W3C规定的用于表示元数据和本体的标准.由于RDF数据具有图的结构特点,存储和查询比较复杂,没有一个统一的标准,因此如何有效地存储和查询RDF数据成为了研究的一个热点.讨论了PDF数据存储的难点和问题所在,提出了一个存储RDF数据的算法。基于LUBM生成的数据,我们设计了不同复杂度和结构的查询,以检验不同算法

会议

关系数据库RDF数据存储RDF数据查询相同谓词值优先搜索语义网

一种基于数据集性质的快速等差模式聚类算法

传统聚类以距离作为相似度计算依据.然而,有时对象与对象之间不具有相近的物理距离,但却存在相似的一致性模式.因此,采用基于模式的聚类方法解决此类问题。但模式聚类的一般方法效率较低。根据等差模式对应的数据集自身的性质,提出了一种新的等差模式聚类改进算法,与原有的等差模式聚类算法比较,此算法具有更好的时间效率。

会议

模式聚类等差模式升序数据集

一种支持大规模稀疏数据表上相似性查询的索引设计

与本文相关的学术论文