数据清理方法

来源 :计算机应用 | 被引量 : 0次 | 上传用户:juzhaoyang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据清理是数据仓库中的一个重要研究领域,近似重复记录的识别则是数据清理中的技术难点之一。文中提出了几种预处理技术,通过使用这些技术,当记录按关键字排序时,近似重复记录互相靠近。结合识别近似重复记录的优先队列策略,给出了记录相似度的计算,并给出了分析结果。
其他文献
台湾石化产业现况台湾石化产业始自1968年建成第一轻油裂解工厂开始,才此后40余年的发展过程中,台湾石化产业由萌芽逐步发展壮大,自下游加工业逆向整合中、上游石化原料行业,迄今
目的了解患者自我护理造口的情况,为提高造口患者的护理质量提供依据。方法采用问卷调查方式,对92例结肠造口患者进行调查,收集资料进行分析。结果造口周围皮肤炎症是发生率
介绍了C语言中几种内存分配方式,对几种方式的特点进行了对比,然后详细讨论了动态内存分配的实现方法,并分析了在实际应用中存在的问题,最后给出一个实例,说明动态内存分配在
从文艺美学角度探讨翻译的审美标准和价值观,辨析内容真与形式美的关系一直是我国译论史上的一个传统命题。作为从美学视角出发的翻译理论标准,"化境"主张散文翻译的"形"、"
<正>今年来,南都提出了要打造"一报一网两微三端"四大产品线和多产品矩阵,虽然目前正在推进或已经孵化成功的有10多个新项目,但还没有打造出具有核心竞争力的产品。南都目前
15E系列测硫仪原理长沙煤质电脑仪器有限公司研制、生产的5E系列测硫仪,可快速测量煤的含硫量。基本原理是:煤样在1150℃高温和催化剂(三氧化钨)作用下,于空气流中燃烧分解。煤中各种形态的
<正>课堂是师生对话的生命场,这里有激情的闪烁,有美的陶醉,有理性的沉思,灵动的飞扬,静穆的升华,沉醉的超拔,思维的碰撞,汇成涓涓的细流,润物无声,有时像惊涛拍岸,雪浪千重
在自然科学中,常常在相关的2个量之间并不一定存在严格的函数关系,利用最小二乘法原理可以确定其拟合方程及最优系数。然而对于较复杂的非线性问题,有时并不凑效。根据曲线拟
文中介绍了一种用SVM进行主动学习的方法 ,解决在某些机器学习问题中 ,训练样本获取代价过大带来的问题。实验表明 ,该方法与普通SVM方法相比 ,在保证SVM分类器性能的前提下
分析并实现了基于PHP技术构建的政府信息发布系统设计模式,包括信息发布类网站系统的开发设计、总体结构、功能实现等。采用了盒式模型和MVC模式作为系统实现的核心技术。这