基于对角存储的稀疏数据查询与处理算法研究

来源 :黑龙江大学 | 被引量 : 0次 | 上传用户:haizibooks
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在数据库和文件系统相关领域的研究中,如何加快数据的检索和查询速度一直都是一个热门研究内容。现如今流行的hadoop和spark之类的大数据框架都是利用专门的计算引擎进行数据的分片处理,而利用数据划分策略对数据进行分块预处理则可以巧妙的将可能的查询计算时间转移到数据存储时进行。数据划分策略是一种利用特殊方法或函数进行数据切分并存储的方法。数据划分策略也可以当作一种数据被查找前的预处理方法。基于hash的数据划分策略是一种被广泛研究的方法,但是传统的划分方法可能在高维数据上产生大量的数据块,并且对数据的分布有相应的要求,局限性相对明显。同时,如果数据的分布不均匀,那么进行分块将必然会导致节点间的数据分布不均衡。由于以上种种原因,如何进行高维数据的有效划分和查找,同时保证划分后的节点间数据分布的均衡、查找的均衡是本文的主要研究问题。论文对数据划分方法、查找方法和再平衡方法进行了系统的研究,本文的研究成果主要有:1、提出了一种基于CMD的稀疏数据划分和查询方法,针对特定高维且部分维度内数据分布稀疏情况的数据,利用先验知识选择特定的部分维度进行基于CMD方法的网格数据块划分,再对其余属性进行B+树索引;B+树的节点内采用改进的三点插值法进行查找,同时利用一种类似于bitmap的方式作为B+树的索引以便于插值搜索法的查找。2、提出了一种基于LRU算法的数据不平衡条件下的再平衡方法,基于CMD的网格数据块划分方法在数据不满足均匀分布时必然会导致节点间数据分布的不平衡,于是效仿内存置换算法进行节点间的数据块分布的再平衡。实验采用了合成的倾斜分布的数据,并在再平衡前后分别进行了范围查询的速度对比,结果显示了该种调整算法的可行性和有效性。
其他文献
随着素质教育理念的不断深入,越来越多的教师开始重视起,在高中阶段对学生的核心素养。而对高中的历史教学,教师想要在教学过程中为学生融入核心素养的培养内容,不仅要转变在传统基础上对学生进行历史文化意识的培养,还应当将历史学科核心素养中所包含的历史学科理论知识,和背后相关的文化价值意义融入到教学过程中,并且教师应当注意在教学过程中以核心素养为基础,明确教学目标和教学内容,帮助学生建立正确的价值观。
近年来互联网行业发展迅猛,数据量呈指数式增长,信息过载问题也日益严重。推荐系统作为一种解决手段已被广泛采用,推荐系统可以帮助用户根据历史记录中找到用户自身偏好。这种便捷、智能的系统已在用户中非常流行。随着推荐系统的发展和企业间的竞争,提高推荐系统的准确性已成为企业增强核心竞争力的关键。推荐系统通过信息过滤为人们提供有价值的信息,基于矩阵分解的推荐模型已被广泛应用于推荐系统中。但是在数据稀疏程度高时
现如今,随着人机交互技术的发展,人们对人脸识别技术的研究越来越深入,在各个方向已经取得了巨大的成就,可以应用到生活中的各个领域。但是人脸识别有很多影响因素,比如光照,姿态变化,以及遮挡等因素都会对面部识别率产生比较大的影响,年龄变化也是一样,每个人随着年龄的增长,面部特征都有着或多或少的变化,比如皱纹,面部形状等等,本文就是针对降低年龄变化对人脸识别影响所提出的。年龄作为面部的一个重要属性,是一个
深度卷积神经网络、超分辨率在计算机视觉中的高度发展,研究促进了目标识别的飞速发展。基于机器学习方式的目标检测方法针对更高难度的检测任务时往往识别效率低下,深度学习技术凭借着强大自学习能力和自适应性为目标物体识别问题的解决提供了新的途径。本文主要侧重于小目标物体难以识别问题,提出新的检测方法进行模型准确度评估和定位。首先,针对提取的特征图不清晰问题,本文提出了退化抑制模块。该模块主要聚焦在如何将网络
为了开展高效准确的甜菜品种鉴定研究,有效把控甜菜品种的种子品质。本研究搜集已登记使用的85份甜菜品种开展田间种植测试和指纹图谱构建。表型鉴定部分,选用了18个农艺性状进行田间测试,通过主成分分析法,提取前五个主成分,累计贡献率达52.35%,筛选出了叶片绿色程度、叶片宽度、叶柄长度及叶基部宽度及根长度为核心鉴定性状,并根据cos2值成功将85个甜菜品种实现鉴别和分类。分子标记鉴定部分,20对SSR
道路交通运输是现代社会生产生活中必不可少的一部分。随着经济的发展与社会的进步,交通运输系统面临着越来越大的压力,保障道路交通安全与保证道路通行效率,进而缓解交通压力一直是社会所关注的重要话题。随着科学技术的发展,智能交通系统(Intelligent Traffic System,ITS)相关技术应运而生,它是一个解决交通运输问题的强有力的方案。车到车(Vehicle to Vehicle,V2V)
伴随科技发展,计算机成为人们生活中必不可少的组成部分,物联网作为新一代信息技术的重要组成部分,为各行各业的发展及人类的生活方式带来了巨大改变。本文是一篇英汉模拟交替传译实践报告,选取2019年第五届世界物联网解决方案大会为实践材料。本文共包括翻译任务描述、翻译任务过程、口译案例分析、翻译实践总结四个章节,第三章口译案例分析为本实践报告的重点部分,详细阐述了本次翻译任务中出现的问题以及应对策略。笔者
国际货币基金组织(IMF)和世界银行集团(WBG)每年都会召开年会来探讨全球共同关注的问题。本次模拟交替传译选取的语料是国际货币基金组织和世界银行集团2018及2019年秋季年会与会嘉宾的发言。本次实践报告以源语信息的密集问题作为切入点,通过实践中的问题应对和实践后的译后反思、分析、归纳和总结,笔者将此次实践中信息密集的情况进行了归类,并提出了相应的解决策略。针对专业术语和并列短语密集导致的术语漏
随着时代的不断发展和科技的不断研发,5G正在逐步的走进我们的生活并改善我们的生活。而我们的智慧图书馆的不断发展也会因5G的发展壮大而实现更全方位立体的服务体验模式,带给读者一个全新不同的服务创新模式,满足读者不同的需求和体验。本文首先通过对国内外学者关于智慧图书馆服务模式的研究进行分析,了解图书馆的发展历程和各位学者对于图书馆在不同阶段的研究方式和得出的结论。其次通过调查问卷的形式对服务的需求进行
随着在线社交网络平台以及移动网络设备的迅速发展,人们分享和获取消息的方式逐渐发生改变,多元的社交网络平台极大地便利了消息的产生和传播,加剧了海量信息之间争夺用户注意力的竞争,也凸显了预测消息流行度的重要性。了解消息在社交网络中是如何传播的,以及什么样的因素推动了消息的成功扩散,并对消息可能影响的人口规模做出准确预测,是一项具有挑战性但在现实生活中又具有广泛应用的工作。目前关于消息传播预测也叫消息级