【摘 要】
:
使用deep web数据源下重复记录识别模型对从多个deep web数据源中抽取出来的半结构化和无结构化的数据进行处理.首先,在数据预处理模块中将所抽取的数据生成实体记录的形式,
【基金项目】
:
The National Natural Science Foundation of China ( No. 60673139).
论文部分内容阅读
使用deep web数据源下重复记录识别模型对从多个deep web数据源中抽取出来的半结构化和无结构化的数据进行处理.首先,在数据预处理模块中将所抽取的数据生成实体记录的形式,然后,在异构记录处理模块中利用在同构记录处理模块所得到的权值,计算各实体记录的相似度,得到重复记录.与传统的重复记录识别模型不同,所提方法是在模式匹配未知的前提下实现的;并且采用带有可选算法的多个相似度估算器以达到更好的匹配效率.实验证明,该重复记录识别模型是可行且有效的.
其他文献
The quantity discount contracts are investigated for a one-supplier-one-retailer supply chain with asymmetric information when the retailer's cost is disrup
通过Wittig反应合成了咔唑衍生物9-乙基-3-{5-(4-叔丁基苯基)-[1,3,4]二唑-2-苯乙烯基}-咔唑(2)和9-乙基-3,6-双{5(4-叔丁基苯基)-[1,3,4]噁二唑-2-苯乙烯基}-咔唑(3),用核磁共振和红外光谱
研究了二阶哈密顿系统-ü(t)+A(t)u(t)=▽F(t,u(t))的高能量周期解的存在性问题,其中F(t,u)=F1(t,u)+F2(t,u),而F1(t,u)和F2(t,u)分别满足某种凸性及凹性条件.利用喷泉定理及其推广获得了上述哈
为了进一步提高搜索引擎的效率,实现对deep web中所蕴含的大量有用信息的检索、索引和定位,引入潜在语义分析理论是一种简单而有效的方法.通过对作为deep web站点入口的查询
相对于相干检测,由于在收发端不需要信道状态信息,非相干UWB通信在信噪比方面会有近3dB的性能损失.为了克服这一性能差距,提出了一种有效的基于多频带UWB系统的差分编译码方案.该
研究了利率期限结构静态模型中的多项式样条模型,并在此基础上得到折现率估计模型,从而对项目各期现金流进行相对准确的折现计算.研究了利率期限结构动态模型中的一个简单的基本
针对目前已有的上下文相关图文法的描述规范过于复杂或不太直观,提出了一个新的上下文相关图文法的形式框架:上下文属性化的图文法CAGG.该文法将产生式的上下文信息刻画成相关结
针对NP难的最小化最长完工时间和总完工时间无等待流水双目标调度优化问题,分析相应的目标增量性质,提出用非支配划分方法将种群划分为具有不同优先级的Pareto面以提高搜索解的
对采用热的良导体——碳纤维改善相变材料的热传导速率开展了研究.通过碳纤维与甘二烷的物理混合制备了相变复合材料.采用示差扫描分析法、热重分析法和差示热分析法测试了此
【正】 如果你有一部精彩的DVD影片,想让没有DVD光驱的朋友也能欣赏这部影片,该怎么办呢?你可以将这部影片转换成VCD后送给他。不过将DVD转成VCD通常需要多个软件配合工作,显