典型偏好查询结果可用性分析研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:wwwww1980wwwww
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在数据库应用的众多领域,数据体量达到了历史新高并继续呈指数级别的增长。在此背景下,许多决策支持类应用都需要通过用户指定的偏好查询,从海量数据中提取用户感兴趣的少量结果。如果用户对查询结果不满意,可能会以此提出Why问题,让不想要的对象不出现在查询结果中;相反,用户可能会提出相应的Why-not问题,以期能够得到想要而又不在结果中的元组。本文以Top-k查询和Skyline查询这两种较为典型的偏好查询为例,展开查询结果可用性问题的研究。
  在Top-k查询中,由于用户不能精确地指定自己的偏好,因此针对其不满意的查询结果,可能提出Why问题。本文提出一种基于样本的BTW算法,可以通过更改用户偏好权重、改变k值、或同时修改两者来获得代价最低的新查询,使得其查询结果不包含Why元组,以此将用户不满意的对象排除在外。但是BTW算法需要对样本集的全部元素执行Top-k查询,当样本数量较大时,时间复杂度将会非常高。为了弥补BTW算法在执行效率方面的不足,提出改进的ImprovedBTW算法,使用两种优化技术集成大量的剪枝策略来提高算法的效率。在该算法框架下,进行各种案例分析,并在真实和合成数据集中进行实验,验证算法的有效性和效率。
  研究特定区域Top-k查询的Why-not问题,当用户在特定的区域中进行查询时,会出现所期望的查询结果并没有出现,那么用户可能会想知道其原因,并采取相应的措施进行改进,以将Why-not元组包含在内。具体的,考虑二维区域单个Why-not元素,逐渐扩展到多维区域多个Why-not元素的一般情况,并提出一种通用处理方案ATWN算法,以帮助用户得到想要的结果。最后对算法进行局部优化以提高算法性能,并通过实验验证所提出算法的有效性和效率。
  在实际应用中,Skyline查询为多维度商业决策提供保障。借鉴正交区域Skyline查询现有的处理方案,考虑Why-not对象出现的具体位置,提出四种措施来调整查询结果,即修改Why-not点的MWP算法、缩小正交区域的MRN算法、同时修改两者的MWR算法和扩大正交区域的MRE算法,以帮助用户将Why-not点包含在内。真实和合成数据集上的大量实验表明,算法为正交区域的Skyline查询中的Why-not问题提供较高质量的解决方案。
  此研究可以为其他相关偏好查询中的Why或Why-not问题的解决提供思路,对于提高数据库的可用性具有一定的理论意义和应用价值。
其他文献
移动边缘计算作为边缘计算的一种实现形式,其在一定的程度上有效的弥补了云计算在实时性处理、带宽占用以及数据隐私安全方面的不足,并且在人机物融合应用方面具有十分良好的前景。但是,由于边缘计算所依赖的边缘设备本身所固有的携带能量有限、计算能力有限、存储能力有限的局限性,边缘计算在应用的过程中往往面临着各种各样的挑战。  针对移动边缘计算场景下,边缘设备接入接出灵活的特点,以及由边缘设备接入接出所引发的边
近年来,知识图谱由于其表达丰富信息的能力及其在基于知识的推理中的潜力而受到了广泛的关注。例如,它们可以协助(与移动服务中的用户关联,切换策略和流量内容)相关的深入知识发现。知识图谱嵌入可以将知识图谱中的实体和关系投影到密集且低维的向量中,并通过这种方式有效地测量复杂的语义信息以及这些实体之间的关系。但是,传统的知识图谱嵌入方法仅考虑知识图谱中的直接事实,在面对稀疏数据时,很难实现对实体和关系的合理
学位
在如今的大数据时代,智慧城市的理念与建设蒸蒸日上,作为和谐社会的安全保障,监控摄像头可谓随处可见。监控视频下的行人属性识别通过统计整合信息实现对行人的信息结构化,这对于智能安防、刑事侦查、广告精准投放等领域具有至关重要的作用和意义。但是由于监控视频场景复杂,而且行人属性类别间的相关性和属性类别与空间位置间的关联较难挖掘,行人属性识别任务仍具有挑战性。  本文提出的基于语义分割的行人属性识别方法,针
随着互联网技术的迅速发展,大数据时代下信息过载的问题日益严重。能够提供个性化信息服务的推荐系统成为解决上述问题的主要技术,而其中的矩阵分解模型因其简单高效且准确度高得到了广泛的关注。传统的仅使用用户对商品评分信息的矩阵分解模型及其他协同过滤方法容易受到评分稀疏的影响而效果不佳。现实生活中,广泛存在于网络且容易获取的用户评论能一定程度反映用户的喜好和被评论商品的特征,因此结合评论文本的个性化推荐算法
随着直播行业的迅猛发展,观看直播成为了大量用户的主要文娱活动之一。但是各大直播平台的相互独立性一方面影响了用户体验,一方面难以满足相关部门的监管需求,将各大直播平台动态聚合成为必要。直播平台自身发展的过程中,平台内部也遇到了信息过载的问题,而直播背景下的推荐不同于电影视频等推荐,具有时效性、隐蔽性和不确定性的特征,更为重要的是直播平台在迅速扩张过程中引入的新用户与主播会加剧推荐系统中的冷启动问题,
学位
现实生活中的推荐系统经常面临这样的问题,仅基于短时会话(session)的数据(例如小型新闻网站),而不是长期的用户记录(例如淘宝、京东等)进行推荐。在这种情况下,常用的矩阵分解方法是不准确的。近来,循环神经网络(Recurrent Neural Network, RNN)被广泛应用在基于序列数据的推荐中,但是RNN在基于序列数据的推荐中也有其不足,因为其仅仅考虑了序列中的时序信息,而没有考虑其他
学位
随着信息技术的快速发展,现代社会数字信息量急剧增长。根据国际数据公司(IDC)于2018年11月发布的《数据时代2025(Data Age 2025)》报告,全球所有数据的总和将由2018年的33ZB增长到2025年的175ZB。海量数据的存储需求推动了大容量存储设备市场规模高速扩张,也对各类存储技术的发展提出了更高要求。与光存储、半导体存储等相比,磁存储的单位存储成本更低,综合性能优势更大,基于
学位
随着大数据时代的到来,数据中心成为数据存储的主要场所,其数据量呈指数级增长,对存储器的需求也大大增加。磁盘存储器具有高密度、大容量、高性价比等优点,是目前数据中心的主要存储设备。然而,磁盘存储器寿命短、故障率高等问题大大降低了数据中心存储系统的可靠性。磁盘故障不仅影响数据中心服务的可用性,还会给数据中心运维带来巨大的开销。因此,研究磁盘故障问题对提升数据中心存储系统的可靠性和减少数据中心运维成本具
学位
电力系统分析是电力系统规划设计、调度控制的决策基础和科学依据,是保障电力系统安全稳定运行的基本手段之一。电力系统分析以数字模型代替实际电力系统,用数值计算方法对系统的运行特性进行实验和研究。随着电力系统规模的增大,系统元件模型日益复杂,对系统机理研究越来越精细,电力系统分析的规模和复杂度空前增长,迫切需要利用并行计算技术提升电力系统分析应用效率。  与此同时,高性能计算硬件技术得到飞速发展,以GP
学位
近年来,为了提升模型性能,深度学习模型的规模和训练数据集不断地增大。然而,基于大规模数据的模型训练面临着收敛缓慢、计算耗时的问题,这对优化算法和硬件计算能力提出了巨大的挑战。并行分布式训练是从硬件计算的角度出发,利用多核/众核处理器、集群或云的计算能力,加速模型训练,减少优化算法的计算时间。高效的并行分布式训练是模型特征与硬件计算结构的协同设计。对于单计算卡上的并行训练,主流的并行算法以矩阵计算为
学位