基于Web数据库特征的Deep Web独立数据样本采样方法

来源 :第29届中国数据库学术会议 | 被引量 : 0次 | 上传用户:tp153c
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  近年来,随着Deep Web研究的不断深入和人们对Web数据集成系统要求的提高,对Web数据库进行采样的质量要求也越来越高。针对属性值之间存在依赖关系的文本属性,定义了依赖关系矩阵并基于该矩阵给出了文本采样中的样本分配方法;为了方便采样,给出了采样树的定义并基于采样树给出了针对多属性组合的采样方法;另外,基于样本与数据源在特征匹配的度量,还给出了相应的采样质量评价方法和采样效率评价方法,实验测试表明,提出的方法能够较好地完成数据采样,提供高质量的采样结果。
其他文献
  在一个字符串集合中,通过一些字符串的相似性函数寻找与查询字符串相似的字符串集合被称为字符串的近似查找。这种查找常应用于数据库、信息检索等各个领域。但是在某些特
直流微电网故障的快速检测与切除是提高其运行可靠性的关键.电流差动保护可快速有选择地切除故障,但受短路阻抗影响较大,在高阻抗短路时可能拒动.针对环形直流微电网,文中提
  由多核CPU和GPU构成的异构计算平台已经成为当前高性能计算的重要发展方向,为充分发掘异构计算平台的潜力,有效提升列数据库查询的性能,首先提出了一套列数据库查询的原语集
会议
  实时OLAP对数据装载与更新、查询分析性能等方面具有更高的敏感性,面向DBMS的数据ETL和复杂SQL查询,提出了一种轻量级并行处理方法,即通过并行ETL过程将大规模、高维度事实
会议
针对多光伏直流配电网系统在不同应用场景下存在的功率波动,文中提出了一种基于离散一致性算法的分布式多光伏协调控制策略.首先,相邻光伏控制器之间可以进行功率偏差和运行
  高效且准确地找出存在于深网中的与用户查询意图最相关的Top-N元组,是深网数据集成中的关键问题。针对数据源内容概括未见成果的现状,本文提出了一种能够有效概括非数字、
点状网络具有高供电可靠性且有利于分布式能源消纳的特点,但现有结构及其控制与保护方法限制了其进一步发展.文中基于点状网络多源并供优势与交直流混联思想的结合,提出了交
  随着Web 2.0相关技术的发展,传统爬虫无法适于动态网页中用户评论的获取.主要工作包括:1)分析了动态网页用户评论的挑战;2)设计了一种新的用户评论获取方法ReviewCrawler,R
会议
大规模直流多点馈入导致受端交流系统电压支撑能力相对变弱,电压稳定问题突出.因此亟须提升受端交流系统强度,但这在加强交流系统电气联系的同时也加剧了短路电流水平.受端交
  随着语义网技术的发展,RDF数据应用的领域越来越广泛,因此产生了海量的RDF数据,对存储和查询提出了更高的要求。在RDF数据上建立多索引结构能有效地提高查询效率,设计了