基于分层抽样的重叠深网数据源选择

来源 :软件学报 | 被引量 : 0次 | 上传用户:mikesh123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
深网查询在Web上众多的应用,需要查询大量的数据源才能获得足够的数据,如多媒体数据搜索、团购网站信息聚合等.应用的成功,取决于查询多数据源的效率和效果.当前研究侧重查询与数据源的相关性而忽略数据源之间的重叠关系,使得不同数据源上相同结果的数据被重复查询,增加了查询开销及数据源的工作负载.为了提高深网查询的效率,提出一种元组水平的分层抽样方法来估计和利用查询在数据源上的统计数据,选择高相关、低重叠的数据源.该方法分为两个阶段:离线阶段,基于元组水平对数据源进行分层抽样,获得样本数据;在线阶段,基于样本数据迭
其他文献
我国是世界上自然灾害最为严重的国家之一,由于我国江河众多、海岸线较长,由此导致的洪水灾害给我国造成了较大损失。本文简单梳理了国内学者关于我国洪水灾害的文献研究,认
互联网+环境下,农村电商作为一股新的力量正在推动和加速农村城镇化的进程。文章从新型城镇化和农村电商的内涵入手,探讨了农村电商和新型城镇化的关系,对农村电商和新型城镇
伴随着近年来课程创新改革的不断推进,各大高校都在努力尝试着从钢琴课程演奏的教学体系着手,针对钢琴演奏的课程设计思路、教学方法以及教学内容等诸多方面进行改革创新,以
控制性详细规划是由政府和相关部门制定的法定性规划,在城市建设中发挥着综合平衡各方利益的作用,以及协调各种关系的作用,是一项重要的城市公共政策,然而在现阶段控制性详细
通过对武钢三烧筛分室改造及3000mm×8000mm大型冷矿振动筛设计、研制,调试工作总结和理论分析,论述了大型冷矿筛振劝参数确定的方法及大型冷矿筛振动系统,筛机结构优化的途径。
本文阐述了在物联网大热的背景下车联网崛起的重要条件;主要分析了车联网中感知层、网络层、业务层、应用层这4个主要的层面,并系统性地研究了RFID、WSN、车与车的组网、平台架
文章明确了知识援助的主体、对象与机制,在分析知识援助动力机制与体系构建中的矛盾基础上,就策略、实践操作、共享趋势、人文关怀等方面论述了图书馆对弱势群体知识援助的体
公共图书馆在公共文化服务体系建设中发挥着重要作用,有义务针对文化弱势群体开展文化扶贫活动。本文介绍了文化弱势群体、文化扶贫的概念,分析图书馆参与文化扶贫的可能性,
目的评价胆道镜联合钬激光经胆囊管治疗肝硬化合并胆总管结石的有效性及安全性。方法回顾性分析31例接受胆道镜联合钬激光经胆囊管治疗肝硬化合并胆总管结石患者的结石清除和
无论是社区矫正的现行立法、党的政策,还是对于社区矫正十佘年的试点与研究,专门为社区矫正立法的法典化时代已经到来.但对于经验的总结思考,社区矫正法典化还有一系列的问题