论文部分内容阅读
在大数据时代,随着各行各业中数据量的不断增加,数据库所承受的压力也越来越大。从用户的角度看,数据库查询的效率在很大程度上会影响用户的个人体验。从数据库自身的角度看,随着数据量的不断增加以及网络用户群的不断扩大,在原有的体系架构下,其对应的事务查询响应速度、整体的事务吞吐量以及事务的并发处理能力也越来越依赖于硬件上的规模及配置。在查询过程中,缓存的重要性也越来越突出,而如何能够更加充分地利用缓存,来提高大数据查询的效率,以及如何能够以更小的代价来扩充数据库对外支持的事务查询并发数、加大大数据查询的吞吐量,则成了大数据查询中的核心问题。因此本论文重点研究了大数据查询下数据库对外事务的并发查询以及数据库中预热点缓存技术。近年来,关于大数据查询领域的研究已经有很多,在数据库对外提供事务并发增大方面的研究主要集中在数据库连接池技术,数据库分布式技术,以及如何通过利用缓存来提高查询效率进而间接地扩大单位时间事务的并发数等问题上。而对于缓存技术的研究,则主要集中在缓存架构,存储格式以及缓存的剔除策略上。对于通过使用缓存内容来提升数据库查询速度,以及通过查询内容的有效处理来提升数据库对外处理事务并发能力的提升,相关研究还是很少。本文针对大数据查询中数据库对外支持的事务查询并发数限制问题,以及通过缓存内容提高大数据查询响应速度问题,设计了SQL-Combines机制和热点数据预取机制。其中,SQL-Combines机制能够保证不同类型下的查询语句进行高效合并,降低不同查询对于数据库资源上的竞争,并提高整体的查询速度。而热点数据预取机制则通过知识模型来获取未来可能热点,通过合适的预取机制对可能热点数据进行预存缓存,从而提高数据库的查询相应速度。本文通过在服务器上搭建真实平台架构,并根据巴莱多定律模拟真实访问情景,并进行了多方面的对比实验,证明了 SQL-Combines机制和热点数据预取机制的有效性和优越性。最后,基于对全文的总结,指出了本文工作的不足和可以改进的地方。