论文部分内容阅读
数据库技术的发展水平决定着国家信息化程度的高低。随着生活社会化和网络化的不断深入,信息容量的爆炸式增长对数据库技术的发展提出了更高的要求。伴随在网络监控系统、金融分析系统、交通流量预测、Web应用等众多领域中广泛出现的被称之为流数据(Streaming Data)的新型数据模型使传统数据库技术面临着严峻的挑战。
流数据管理系统的出现弥补了传统数据库在处理动态数据上的不足,有效地解决了由潜在无限、高速动态、频繁变化等数据特点决定的,并与传统数据模型不同的数据处理方式。流数据管理系统着眼于当前流入内存的实时数据,然而,几乎30%-40%的应用涉及历史流数据,因此,若不对流出系统的历史数据有效地进行保存,那么有关趋势预测、数据分析等方面的应用将很难得到满足。
本文在分析了流数据管理系统和关系数据库系统优缺点的基础上,提出了基于流数据引擎和关系数据库联合系统的存储体系结构,并从以下三个方面进行了详细研究:
第一,针对流数据管理系统和关系数据库在处理数据方式上的不同,通过采用等距无偏采样和批处理方式实现系统的联合,并有效地降低数据库空间的存储压力;
第二,依据用户或应用程序对数据的关注程度,利用在内存中建立基于历史数据的缓存方法来平衡实时数据和历史数据在访问速度上的较大差异,并提出基于数据访问频率的置换算法来保证缓存的性能;
第三,随着时间的不断推移,采用基于时间粒度的二次存储方法进一步提高外存关系数据库的存储能力。
最后,较为详细的仿真实验和结果分析证明了本文所提出的方法在实时流数据模型存储效率方面的正确性和有效性。