基于多路分块的Pay-as-you-go实体识别方法

来源 :计算机学报 | 被引量 : 0次 | 上传用户:woshi52038
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
实体识别是数据集成和数据清洗的一个重要方面.针对Pay-as-you-go数据管理需求,本文提出一个基于多路分块的Pay-as-you-go实体识别方法.该方法不要求提供最优的分块或排序的键,并且可以直接找出脏数据集中冗余度最大的区域.分为两个阶段,初始化阶段和迭代阶段.在初始化阶段,初步地生成候选数据对象对,并按匹配可能性排序后加入到候选队列.在迭代阶段,每次选择候选队列队首的候选对(即最可能匹配的)来处理,并且根据实时的实体识别结果,动态地更新候选对的匹配可能性,调整候选队列.这样减少了无用的数据对象
其他文献
后现代主义作为一种新兴的社会思潮,对人文、社会科学诸多领域产生了深刻的影响,教育领域亦不例外。本文着重探讨后现代主义对课堂教学改革的积极影响和启示。这种影响主要表
语言是政治运动、政治演讲宣传交流的重要一个工具。我们通过政治语料库中一个政治演讲稿为例来研究一下政治语言背后的意义,探索政治背后的语言,从而尝试揭示政治语言的修辞
在Windows环境下开发了可视化的钻孔数据库。其特点是针对不同钻孔数据类型以相应的方式管理信息。对测井曲线库,结合其特点在可视化的基础上实现了动态库结构,可视化的设计使界面友好
具体来讲汉语语言文学审美与鉴赏能力就是学生对文艺作品中的形象的一种生活化的认知能力,使得学生能够从文学作品中读懂其中所蕴含的社会现实。这些是培养学生健全人格、提
本文介绍了用于坑道无线电波透视层析成像处理中数字模型的设计,用层析成像特殊算法(平行相关增强、斜交相关增强、异常增强)分别对精确和含噪声的数字模型数据进行了层板处理,并
本文介绍了以Windows95为i平台进行开发的用于地球物理数据处理的应用系统,它为地球物理数据提供提供了一种新的手段。
本文根据电阻率测深曲线的一维反演中对初始模型的要求和收敛速度,论述了奇异值分解法与阻尼最小二乘法的优缺点。
MIS系统中的查询问题,长期困扰着开发者和使用者。本文通过一个具体的问题,详述了实现复杂查询的方法,并通过实蛔以解释和说明同时总结了各种方法的特点及适用范围。文中所用方法与
突变理论是现代非线性科学领域的一个重要分支,本文通过建立尖点突变攻累加尖点突变模型,尝试性将突变理论应用于油气检测,提出突跳势,突跳间隔,突跳时间等参数,并通过实例分析,证明
某工程拟在外墙抹灰施工完成后拆除外墙脚手架,并采用足够数量的吊篮作为外立面装饰涂料施工的作业平台。但面对坡度较大的斜屋面,传统使用的挂臂式吊篮无法固定安装。基于此