论文部分内容阅读
近似查询处理技术常被应用于海量数据的多维分析,以缩短查询执行的时间,同时返回尽可能准确的结果。由于海量数据中常存在许多极端值,会严重影响近似查询处理的结果。因此针对海量数据的聚集操作,论文提出CSSAQP算法,先将原始数据集按某一数值列直观的聚为三类,分别代表大值簇、小值簇和常值簇,再对各簇按分组属性分别进行分层抽样,构建总体样本集,最后通过查询重写在总体样本集上执行查询,以缩短海量数据聚集操作的查询时间,同时提高查询任务的准确性。通过实验验证,证明了该算法不仅可以缩短聚集查询的时间,同时还能有效提高查询