论文部分内容阅读
在数据库应用的众多领域,数据体量达到了历史新高并继续呈指数级别的增长。在此背景下,许多决策支持类应用都需要通过用户指定的偏好查询,从海量数据中提取用户感兴趣的少量结果。如果用户对查询结果不满意,可能会以此提出Why问题,让不想要的对象不出现在查询结果中;相反,用户可能会提出相应的Why-not问题,以期能够得到想要而又不在结果中的元组。本文以Top-k查询和Skyline查询这两种较为典型的偏好查询为例,展开查询结果可用性问题的研究。
在Top-k查询中,由于用户不能精确地指定自己的偏好,因此针对其不满意的查询结果,可能提出Why问题。本文提出一种基于样本的BTW算法,可以通过更改用户偏好权重、改变k值、或同时修改两者来获得代价最低的新查询,使得其查询结果不包含Why元组,以此将用户不满意的对象排除在外。但是BTW算法需要对样本集的全部元素执行Top-k查询,当样本数量较大时,时间复杂度将会非常高。为了弥补BTW算法在执行效率方面的不足,提出改进的ImprovedBTW算法,使用两种优化技术集成大量的剪枝策略来提高算法的效率。在该算法框架下,进行各种案例分析,并在真实和合成数据集中进行实验,验证算法的有效性和效率。
研究特定区域Top-k查询的Why-not问题,当用户在特定的区域中进行查询时,会出现所期望的查询结果并没有出现,那么用户可能会想知道其原因,并采取相应的措施进行改进,以将Why-not元组包含在内。具体的,考虑二维区域单个Why-not元素,逐渐扩展到多维区域多个Why-not元素的一般情况,并提出一种通用处理方案ATWN算法,以帮助用户得到想要的结果。最后对算法进行局部优化以提高算法性能,并通过实验验证所提出算法的有效性和效率。
在实际应用中,Skyline查询为多维度商业决策提供保障。借鉴正交区域Skyline查询现有的处理方案,考虑Why-not对象出现的具体位置,提出四种措施来调整查询结果,即修改Why-not点的MWP算法、缩小正交区域的MRN算法、同时修改两者的MWR算法和扩大正交区域的MRE算法,以帮助用户将Why-not点包含在内。真实和合成数据集上的大量实验表明,算法为正交区域的Skyline查询中的Why-not问题提供较高质量的解决方案。
此研究可以为其他相关偏好查询中的Why或Why-not问题的解决提供思路,对于提高数据库的可用性具有一定的理论意义和应用价值。
在Top-k查询中,由于用户不能精确地指定自己的偏好,因此针对其不满意的查询结果,可能提出Why问题。本文提出一种基于样本的BTW算法,可以通过更改用户偏好权重、改变k值、或同时修改两者来获得代价最低的新查询,使得其查询结果不包含Why元组,以此将用户不满意的对象排除在外。但是BTW算法需要对样本集的全部元素执行Top-k查询,当样本数量较大时,时间复杂度将会非常高。为了弥补BTW算法在执行效率方面的不足,提出改进的ImprovedBTW算法,使用两种优化技术集成大量的剪枝策略来提高算法的效率。在该算法框架下,进行各种案例分析,并在真实和合成数据集中进行实验,验证算法的有效性和效率。
研究特定区域Top-k查询的Why-not问题,当用户在特定的区域中进行查询时,会出现所期望的查询结果并没有出现,那么用户可能会想知道其原因,并采取相应的措施进行改进,以将Why-not元组包含在内。具体的,考虑二维区域单个Why-not元素,逐渐扩展到多维区域多个Why-not元素的一般情况,并提出一种通用处理方案ATWN算法,以帮助用户得到想要的结果。最后对算法进行局部优化以提高算法性能,并通过实验验证所提出算法的有效性和效率。
在实际应用中,Skyline查询为多维度商业决策提供保障。借鉴正交区域Skyline查询现有的处理方案,考虑Why-not对象出现的具体位置,提出四种措施来调整查询结果,即修改Why-not点的MWP算法、缩小正交区域的MRN算法、同时修改两者的MWR算法和扩大正交区域的MRE算法,以帮助用户将Why-not点包含在内。真实和合成数据集上的大量实验表明,算法为正交区域的Skyline查询中的Why-not问题提供较高质量的解决方案。
此研究可以为其他相关偏好查询中的Why或Why-not问题的解决提供思路,对于提高数据库的可用性具有一定的理论意义和应用价值。