论文部分内容阅读
随着信息技术的发展,出现了大量的数据流应用,如传感器数据处理、网络监控、金融数据分析等。在这些应用中,数据是一种连续、时变、有序、无限的序列,查询大多数都是采用连续查询方式。这种数据和查询的连续性对管理系统的资源需求很大。当系统资源不能满足查询处理要求,即查询处理任务超过系统的最大处理能力,用户的查询将得不到及时、正确地处理。同时,如果查询处理时间超过了查询截止期需求,查询结果就没有意义,甚至会造成灾难性后果。目前,很多研究都集中于数据流系统的降载,对支持实时查询处理的实时数据流系统降载的研究比较少。
本论文主要研究支持实时查询处理的实时数据流管理系统中的降载方法,主要包括如下三个方面:随机降载方法、语义降载方法与共享滑动窗口连接操作的降载方法。最后,通过实时数据流管理系统测试平台验证了所提出算法在提高系统吞吐量与降低截止期错失率方面表现出良好的性能。
针对实时数据流应用需求,提出了一种适合实时查询的数据流处理框架结构RT-DSPA和相应的多层过载处理策略MLOHS,为降载方法的研究提供一个框架基础。RT-DSPA分为用户层、DSMS层以及数据源层多个功能模块,具有多层性、可扩展性、健壮性以及可配置性的特点。
在随机降载方面,提出了一种基于数据流流速的负载估计算法;在实时数据流处理框架与负载估计算法的基础上,提出了一种截止期敏感的随机降载算法RLS-EDA。由于系统负载经常波动较大,该算法利用截止期的特点,使用暂存所丢弃元组技术充分地利用CPU空闲资源,使降载执行后系统的吞吐量得到提高,进而尽可能地降低查询截止期错失率;最后,讨论了降载过程中的队列维护策略、含共享操作符查询网络中的降载位置以及降载操作符插入查询网络的算法。实验结果表明,在系统负载波动较大的情况下,RLS-EDA算法表现出良好的性能。
在充分了解数据流及查询特征的情况下,语义降载表现出更好的降载效果。为明确语义降载时使用到的语义,提出了元组价值、价值等级的概念,给出价值等级划分时发生冲突的解决方法。设计了适合实时数据流管理系统的价值等级一执行开销优先级表和截止期-价值密度优先级表,其在确定优先级时可考虑多维因素。基于这两种优先级表设计,提出了相对应的语义降载算法SLS-PT-VD&EC和SLS-PT-D&TVD。基于优先级表的语义降载算法能够灵活地满足用户的不同需求,同时提高系统降载时的性能。
最后,针对共享滑动窗口连接操作符的过载情况,利用查询截止期的特点,提出了一种基于暂存丢弃元组技术的共享滑动窗口连接的降载算法LS-SJRT;为减小LS-SJRT算法的降载开销,提出了一种改进的基于调节滑动窗口宽度的共享滑动窗口连接降载算法LS-SJRT-CW。实验结果显示这两种算法在共享连接操作符过载时都能够表现出较好的性能。