列存储数据仓库中Hash连接改进算法研究

来源 :第29届中国数据库学术会议 | 被引量 : 0次 | 上传用户:frigate999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  Hash连接是一种高效的连接算法。然而由于难以提前选择合适的桶数和散列函数,降低了Hash连接效率。该问题在列存储海量数据查询连接中,表现尤为明显。提出了一种基于桶内索引的Hash连接改进算法。该算法当某些桶内出现数据大量聚集时,以消除重复值和构建桶内索引的方式,大大减少查找匹配时间。进而,根据列存储特点,提出列值有序数据下的散列与匹配算法,进一步提升桶内查找速度。所做的改进在SSB数据集的实验结果验证了其有效性。
其他文献
高效且准确地找出存在于深网中的与用户查询意图最相关的Top-N元组,是深网数据集成中的关键问题。针对数据源内容概括未见成果的现状,本文提出了一种能够有效概括非数字、非离散属性特征的非合作结构化深网数据源摘要构建方法。利用主题词抽样,依据主题语义选择与主题词相关的特征词,通过主题词及特征词构建数据源语义摘要。实验结果表明与传统的基于词频的方法相比较,该方法在召回率及准确度方面均有较大幅度的提升。
社区挖掘算法能够在复杂社会网络中发现社区,却无法精确区分社区边界点,也没有考虑挖掘结果可视化。力导引布局算法是社会网络信息可视化领域的主流布局算法,但是无法反映网络中社区的聚簇特性。因此,提出了社区挖掘分析布局(community detection analysis layout,CDAL)算法来解决这一问题。该算法通过引入度中心度和结构紧凑度对力导引算法进行改进,并采用分层布局的方式实现社会网
在传统的关系数据库上进行关键字查询已经成为近来数据库领域的研究热点。面向关系数据库的关键字查询允许用户在不知道数据库模式、不使用复杂的查询语句的情况下查找出相关信息。然而这种方法可能会产生大量的查询结果,且这些结果与用户的查询意图不是紧密相关的。针对已有问题,提出一种面向关系数据库的语义关键字查询策略。在进行语义分析时,不仅仅利用数据库的模式信息,同时也要利用用户给出的关键字之间的相互联系,既支持
为了提升用户体验度,社交网络都提供了用户推荐。新浪微博的用户推荐方式基于社交网络的结构,并没考虑微博内容信息。而微博作为一个用户创建与分享信息的社交网络应用,具有很强的互动性,用户的兴趣、用户间的关系紧密度等信息都体现在用户发布的消息中。本文综合了新浪微博的结构和内容信息,分别提取了两种结构因素(共同关注与共同好友)和内容因素(转发与@关系),给出了一种综合定义用户间信任关系的度量方式,基于该信任
近些年,由于数据采集的不精确和数据本身的不确定性,使不确定性在位置数据中普通存在。在障碍空间中,聚类不确定数据面临新的挑战。提出了障碍空间中聚类不确定数据的OBS-UK-means算法,并提出了分别基于R树和Voronoi图的两种剪枝策略和最近距离区域的概念,大大减少了计算量。通过实验验证了OBS-UK-means算法的高效性和准确性,同时证明了剪枝策略在不损害聚类有效性的情况下,能够有效地提高聚
数据前端加密是保护云环境下外包数据隐私的一种有效手段,但却给数据查询等操作带来挑战.针对云环境下多数据拥有者数据外包及选择性访问授权特征,为支持大规模加密云数据上高效且隐私保护的用户个性化密文查询,文中提出了一种隐私保护的高效密文排序查询方法RQED.通过设计无证书认证的PKES(支持关键词检索的公钥加密),并构建RQED框架来实现强隐私保护的密文查询.基于该框架,设计了更合理的多属性多关键词密文
研究了不确定图上的最短距离问题,提出了期望最短距离的概念,证明了该问题不存在多项式时间的算法。为了解决该问题,使用了随机采样技术获得不确定图的一些可能世界,在每个可能世界上计算有穷的最短距离,最后计算出平均值作为期望最短距离的估计值。为提高计算效率,使用了过滤条件来减少采样过程中采样的边数从而加快随机采样。在此基础上,提出了一种基于对称变量的、无偏的随机采样近似算法,并证明了与直接随机采样方法相比
作为多目标决策的重要手段之一,Skyline节点查询在传感器网络应用中发挥着非常重要的作用.文中深入地分析了Skyline节点查询的性质,提出了基于过滤的Skyline节点连续查询算法(FIlter based Skyline moniToring algorithm,FIST).FIST算法共包括自底向上、自顶向下和混合3种过滤方式,均通过在传感器节点设置本地或全局过滤器来避免不必要的数据传输,
由于RDF(Resource Description Framework)具有表达灵活、简洁等优点,已被接受为表达元数据及万维网上数据互联的规范。近年来,其数据量以飞快的速度增长,相应地,要求存储RDF数据的系统应具有高扩展性。大规模RDF数据库系统TripleBit旨在为大规模RDF数据提供一个高效的存储和查询方案。为尽可能降低存储空间消耗,采用了增量压缩和变长整数编码方法。并采用了数据分块的存
在Web方面搜索(faceted search)系统中,传统的逐步精化的搜索模式不再适用。针对Web数据的异构性和大规模特征,提出一种新的方面搜索模型:扩展式方面搜索。这种扩展搜索模式采用实体图来表示Web中实体的关联,针对在查询节点附近频繁共现的节点,高效地获取相关度较高的实体作为初始结果集;同时在迭代搜索中根据用户查询意图的变化动态地扩展或精化结果集,提供更为精确的方面列表来引导用户深入查询,