一种deep web数据源下重复记录识别模型

来源 :东南大学学报：英文版 | 被引量 : 0次 | 上传用户：hbjxwjy

【摘要】

：

使用deep web数据源下重复记录识别模型对从多个deep web数据源中抽取出来的半结构化和无结构化的数据进行处理.首先,在数据预处理模块中将所抽取的数据生成实体记录的形式,

【作者】

：

刘丽楠寇月孙高尚申德荣于戈

【机构】

：

东北大学信息科学与工程学院

【出处】

：

东南大学学报：英文版

【发表日期】

：

2008年3期

【关键词】

：

重复记录 DEEP WEB 数据清洗半结构化数据 duplicate records deep web data cleaning semi-structur

【基金项目】

：

The National Natural Science Foundation of China （ No. 60673139）.

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

使用deep web数据源下重复记录识别模型对从多个deep web数据源中抽取出来的半结构化和无结构化的数据进行处理.首先,在数据预处理模块中将所抽取的数据生成实体记录的形式,然后,在异构记录处理模块中利用在同构记录处理模块所得到的权值,计算各实体记录的相似度,得到重复记录.与传统的重复记录识别模型不同,所提方法是在模式匹配未知的前提下实现的;并且采用带有可选算法的多个相似度估算器以达到更好的匹配效率.实验证明,该重复记录识别模型是可行且有效的.

其他文献

二阶哈密顿系统的无限多周期解

研究了二阶哈密顿系统-ü（t）＋A（t）u（t）=▽F（t,u（t））的高能量周期解的存在性问题,其中F（t,u）=F1（t,u）＋F2（t,u）,而F1（t,u）和F2（t,u）分别满足某种凸性及凹性条件.利用喷泉定理及其推广获得了上述哈

期刊

喷泉定理二阶哈密顿系统无限多周期解偶泛函variant fountain theorem second-order Hamiltonian syste

Deep web站点查询界面的潜在语义分析

为了进一步提高搜索引擎的效率,实现对deep web中所蕴含的大量有用信息的检索、索引和定位,引入潜在语义分析理论是一种简单而有效的方法.通过对作为deep web站点入口的查询

期刊

DEEPWEB信息检索潜在语义分析奇异值分解deep webinformation retrievallatent semantic analys

多频带UWB通信系统中低复杂度迭代差分译码算法

相对于相干检测，由于在收发端不需要信道状态信息，非相干UWB通信在信噪比方面会有近3dB的性能损失．为了克服这一性能差距，提出了一种有效的基于多频带UWB系统的差分编译码方案．该

期刊

多频带UWB多输入多输出(MIMO)系统非相干检测群码迭代译码multiband UWB multiple-input multiple-outpu

无风险利率和折现率变化时的R＆D投资实物期权方法

研究了利率期限结构静态模型中的多项式样条模型，并在此基础上得到折现率估计模型，从而对项目各期现金流进行相对准确的折现计算．研究了利率期限结构动态模型中的一个简单的基本

期刊

无风险利率折现率多项式样条实物期权risk-free interest rate discount rate polynomial spline

一个描述可视化语言上下文属性化的图文法框架

针对目前已有的上下文相关图文法的描述规范过于复杂或不太直观，提出了一个新的上下文相关图文法的形式框架：上下文属性化的图文法CAGG．该文法将产生式的上下文信息刻画成相关结

期刊

可视化语言图文法上下文属性化语法分析合流visual language graph grammar context-attributed par

一种deep web数据源下重复记录识别模型

其他学术论文