数据整合中交互过滤扫描算法

来源 :江苏科技大学学报:自然科学版 | 被引量 : 0次 | 上传用户:liongliong461
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当重复记录检测算法对大型数据库进行处理时,由于需要多次扫描数据库,时空消耗较大且效率较低。为了提高检测算法的效率,在区域无关扫描算法的基础上提出了交互过滤扫描算法。该算法在关键字排序上提出了按键盘字母顺序的排序规则,可缩小了重复记录之间的距离,减少比较次数。存两条记录应用字符串模糊匹配算法进行比较前,根据用户提供的相似度对数据库中的记录进行过滤处理。可避免数据库中差异度较大的两条记录在模糊匹配中的时间消耗。实验证明该算法的性能要优于区域无关扫描算法。
其他文献
城市防洪问题日渐突出。如何建设高质量、高标准的防洪工程 ,对可能出现的各级洪水 ,作出迅速、准确的预测预报 ,并相应采取积极完善的防御措施 ,把洪灾造成的损失降低到最低
临床上对断指患者均采用显微镜下断指再植手术,患者多数由外伤等因素引起,术中需多次冲洗手术切口,常造成手术台面潮湿。为了克服现有的不足,笔者设计了一种断指再植指压板,
本文结合引黄工程的实际,简要介绍了FIDIC合同条款中监理工程师的权利与义务,监理机构的设置,监理工作的和重要环节等。
怎样判断《孟子·尽心上》的教育二字王静近年出版的顾明远教授主编的《教育大辞典》,其中讲到了“在中国,教育一词最早见于《孟子·尽心上》(以下简称“尽心上”)得天下
教师错误也是重要的教学资源.教师解题错误是间接的学生资源,教师创新出错可转化为习题资源,教师命题错误是一种开放的研讨资源,教师故意出错是一种有效的评价资源.教师主动
陈独秀的教育思想试析许成人陈独秀(1880-1942),字仲甫,安徽怀宁(今安庆)人。1915年9月15日,在上海创办并主编《青年杂志》(第二卷起改名《新青年》),打出“民主”与“科学”两面大旗,开展了以反对封建思
在原梯形断面上进行渠道改造 ,其断面形式首选弧形底梯形断面 ,因其较梯形断面流速分布均匀 ,近似最佳水力断面 ,流速较快 ,输沙能力强 ,弧形底有一定反拱作用 ,可以减轻冻害
通过实例说明两个具有拓扑共轭关系的混沌映射具有相同的Lyapunov指数。指出了仅仅使用Lyapunov指数作为混沌映射的密码学特性描述,具有一定的局限性。并利用混沌序列的伪随机
略议“教师为主导”的实质于月萍“教师为主导、学生为主体”这一教学论中的重要命题已探讨了多年,人们从不同的角度、不同的范畴对这一命题进行了深入的分析。尽管人们对“主
本文在调查研究了太原市城区洪涝灾害的状况及其成因的基础上,提出了全面治理的工程措施,论证了抽排入汾方案的合理性及经济性,对防治该地区的洪涝灾害有着现实意义。