基于数据质量的Deep Web数据源排序

来源 :小型微型计算机系统 | 被引量 : 0次 | 上传用户:ciximdt
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Deep—web技术使得大量隐藏在接口背后的有用信息更容易被用户查找到.然而,随着数据源的增多,如何从众多的数据源中快速地找到合适的结果这一问题变得越来越重要.通过传统的链接分析方法和相关性评估方法来对数据源进行排序,已经不能满足高精度的要求.提出一种通过抽样方法和数据质量评估来判断数据源的优劣性的算法.本文提出的抽样方法,改进了分层抽样和雪球抽样,使得在较少的样本点时,能够准确的反映整体特征.定义了能基本反映数据源的优劣程度的6个主要质量标准,并给出计算方法;通过质量标准,结合权重向量来量化数据源的质量
其他文献
评估传感器网络节点位置的不确定性对于需要鲁棒性考虑的网络应用有着重要的意义.本文利用网络中的邻接信息构成以节点位置为变量的约束集,利用投影的方法计算节点的所有可能
"意境"是中国文学乃至整个中国古典文学艺术中非常重要的一个概念,文学理论中的"意境"论最早见于唐代王昌龄提出来"三境"论。王昌龄的三境论在结构框架上借鉴了佛教"三别义"论,而其中
为解决波长路由WDM光网络中波长通道的分布式动态建立和拆除问题,已经有多个分布式波长通道建路算法被提出.但新提出的算法都是只跟经典算法,如后向资源预留BRP和前向资源预留FR
我国各级学校心理健康教育的普及工作相对滞后,已成为制约心理健康教育事业发展的瓶颈。文章着重从认识和实践两个层面对心理健康教育的普及作了深入探讨,以期对各级学校心理健
线程级推测技术使在多核上加速传统上难以手工或自动并行化的串行程序成为可能,它不仅需要合理地选择线程的划分策略,而且需要合理地选择适合推测执行的应用.已有的大量研究
随着园林城市理念的深入,传统的绿色园林植物已经不能满足人们的需要,各种彩叶植物作为城市绿化的新宠得到了越来越多的关注。作为呈色的物质基础的花色素苷还具有特有的生态
目的:分析妊娠期母体胆固醇的变化及其与孕周、新生儿出生体重之间的关系。方法:收集妊娠早期、中期及分娩期静脉采血监测的血中胆固醇的数值与正常值进行对比,并分析其胆固醇值
社会经济的不断发展带动了科技水平的不断进步,在造就了大数据时代的同时也为发展财务会计管理信息化创造了环境。大数据时代虽然为财务会计的信息化建设带来了极大的推动,也
高等院校作为知识创新、技术创新和能力创新的源来与高层次创新人才集聚之地,已成为国家科技创新的重要组成部分。我国高校科研不断取得进步并为社会经济发展做出了巨大的贡献