一种deep web数据源下重复记录识别模型

来源 :东南大学学报:英文版 | 被引量 : 0次 | 上传用户:hbjxwjy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
使用deep web数据源下重复记录识别模型对从多个deep web数据源中抽取出来的半结构化和无结构化的数据进行处理.首先,在数据预处理模块中将所抽取的数据生成实体记录的形式,然后,在异构记录处理模块中利用在同构记录处理模块所得到的权值,计算各实体记录的相似度,得到重复记录.与传统的重复记录识别模型不同,所提方法是在模式匹配未知的前提下实现的;并且采用带有可选算法的多个相似度估算器以达到更好的匹配效率.实验证明,该重复记录识别模型是可行且有效的.
其他文献
研究了二阶哈密顿系统-ü(t)+A(t)u(t)=▽F(t,u(t))的高能量周期解的存在性问题,其中F(t,u)=F1(t,u)+F2(t,u),而F1(t,u)和F2(t,u)分别满足某种凸性及凹性条件.利用喷泉定理及其推广获得了上述哈
为了进一步提高搜索引擎的效率,实现对deep web中所蕴含的大量有用信息的检索、索引和定位,引入潜在语义分析理论是一种简单而有效的方法.通过对作为deep web站点入口的查询
相对于相干检测,由于在收发端不需要信道状态信息,非相干UWB通信在信噪比方面会有近3dB的性能损失.为了克服这一性能差距,提出了一种有效的基于多频带UWB系统的差分编译码方案.该
研究了利率期限结构静态模型中的多项式样条模型,并在此基础上得到折现率估计模型,从而对项目各期现金流进行相对准确的折现计算.研究了利率期限结构动态模型中的一个简单的基本
针对目前已有的上下文相关图文法的描述规范过于复杂或不太直观,提出了一个新的上下文相关图文法的形式框架:上下文属性化的图文法CAGG.该文法将产生式的上下文信息刻画成相关结