高效准确的Why-not反Top-k查询处理

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:xyh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Top-k查询和反Top-k是数据库领域中两类重要的查询。给定一个用户偏好向量和一个产品数据集,Top-k查询在数据集中搜索用户最喜欢的k个产品返回给用户;给定一个目标产品、一个产品数据集和一个用户偏好向量集合,反Top-k查询在用户偏好向量集合中搜索目标产品出现在哪些用户的Top-k查询结果中。反Top-k查询的结果反映了用户集合中目标产品的潜在用户,在市场分析领域有重要应用价值。当商家使用反Top-k查询计算某产品的潜在用户时,若某些老客户没有出现在查询结果中,商家通常会提出Why-not问题,希望知道为什么这些客户没有出现在查询结果中?如何做才能使这些用户重新出现在查询结果中。这是Why-not反Top-k查询的一类典型应用场景,也是本文的研究动机之一。本文旨在设计高效准确的算法向商家提供查询修改建议,使得在修改后的查询中,目标客户群体出现在目标产品的反Top-k查询结果中,同时使得商家付出的成本最低。本文将通过两种方法求解Why-not反Top-k查询问题:(1)修改用户偏好向量集合W_m,(2)修改用户偏好向量集合W_m和参数k。对于修改W_m问题:本文提出P-CTA-I算法,在用户偏好空间建立完整索引然后搜索最优解;BFS-I算法在此基础上根据问题特性,通过优化搜索顺序,只构建偏好空间中的问题相关部分,提升了算法性能;进一步,RH-I算法使用优先队列索引用户偏好空间,使用超平面过滤技术进一步提升了算法的性能。对于修改W_m和k问题,本文将其规约为修改W_m问题,然后根据问题特性提出了P-CTA-II算法、BFS-II算法、RH-II算法。最后在真实数据集和随机数据集上进行了大量实验,在不同的参数下分析和验证了优化的有效性和算法的性能。本文的主要贡献列举如下:(1)首次提出通过修改用户偏好向量集合W_m解决Why-not反Top-k查询问题;(2)首次提出修改W_m、修改W_m和k两种求解方式的最优解算法,据我们所知,目前国内外仍没有通过这两种求解方式解决Why-not反Top-k问题最优解算法;(3)在最优解算法的上做出有效优化提升了算法性能;(4)通过真实数据集和随机数据集上的大量实验测试了算法的性能。
其他文献
基于机器视觉的非接触式零件尺寸检测由于具有检测速度快、精度高、适应性强等优点,已被广泛应用于自动化生产中。在制造业中,钻孔是机械加工过程中非常普遍且重要的一步。在
近年来,高频地波雷达得到了高速发展,凭借超视距、低成本、全天候、易维护等固有优势成为了目前对海监测的重要手段之一,具备非常高的军事民用价值。由于直达波干扰的存在,共
有一句俗语说过细节代表一切,细节决定成败。从古至今,不管是企业界、管理界还是艺术界等对细节都是非常重视。习近平总书记在第十三次团体进修中强调“核心价值观要在落细、
末次冰盛期以来的古气候环境变化研究一直是国际学者关注的热点之一。本研究经过细致的野外考察,选取江苏建湖冈北地层剖面(GB剖面、GB2剖面)进行研究和分析,运用年代地层学
古诗作为中小学语文教育的学习重点,无论是在应试教育还是在素质教育体系中均扮演着至关重要的角色。古诗推荐这一智能知识服务能在学生进行古诗拓展学习时主动推送相似的古
波达方向(DOA)估计是阵列信号处理的一个重要分支,传统的高分辨算法在独立信号条件下可以准确估计信号的入射角度。但在相干条件下,由于信号协方差矩阵秩的下降,导致无法准确
单光子压缩成像将单像素成像与光子计数技术相结合,可以实现极弱光下的成像,在生物医学成像、天文探测、多光谱成像等领域具有广泛的应用。由于单像素成像的采样时间受限于测
核磁共振(Magnetic Resonance,MR)技术已经成为了一种常用和重要的疾病检测技术,通过核磁共振医学影像,可以对身体重要器官及部位具有良好的诊断功能。同时,通过MR影像对人体的
很多实验与仿真结果的证明,大脑或神经网络处于临界状态时对信息处理有很多优势,比如最大的记忆容量、最广的信息多样性、最宽动态响应范围等。由于技术和实验动物的限制,以
互联网的高速发展带来了信息的爆炸式增长。如何从缛繁杂乱的信息中筛选出所需信息,是一个迫切需要解决的问题。在现有的信息检索模型中,对文档和候选扩展词的评估主要依赖于