XML与数据清洗的研究

被引量 : 0次 | 上传用户:zixian007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据清洗(Data cleaning),是用来提高数据质量的方法。和大多数公司一样,正虹公司的信息化要求越来越迫切,其中一个很重要的方面就是企业数据的质量管理。为了支持正确决策,就要求所管理的数据可靠,没有错误,准确地反映企业的实际情况。因此,公司数据质量的管理正在获得越来越多的关注。随着 Web的发展,公司的业务部分在 Web 上实现,因此 Web 数据清洗的重要性逐渐为人们所认识,本文主要从 Web 数据清洗的角度加以探讨数据质量管理的问题。本文由绪论,数据清洗理论,XML 在数据清洗上的应用,正虹 Web 系统数据清洗的设计和正虹 Web 系统数据清洗实践,总结与展望六个部分组成。本文主要做了以下的几点工作:系统性地概述了数据清洗的实施流程及理论;分析了 XML 语言在数据清洗上的应用优势;结合 XML 技术提出了一种在 Web 系统上进行数据清洗的框架;讨论距离函数在记录匹配上的应用;在前面工作基础上对正虹 Web 系统数据进行了试验性清洗。数据清洗是一个领域相关性非常强的工作,国内外的研究人员始终没有提出一个通用的自动化的数据清洗框架,所有关于该领域的研究都是针对特定领域数据的,通用的清理方案会受到越来越多的重视。而对于 Web 数据清洗,国外又提出了 XML 键的概念,完全有理由相信它们可以促进针对 XML 数据的清洗,正如关系表的键在数据集成中扮演了特殊的角色一样。
其他文献
<正>花开有期,境生无意。明清时期以来中国绘画的第一流大家几乎都通过花鸟画大展身手,因而现代中国花鸟画引人瞩目的成就,是以吴昌硕、齐白石、潘天寿、李苦禅诸先贤的笔墨
"改造国民性"是中国现代文学史上一个艰难的话题。老舍对"国民性"的思考不仅关注病态民族传统文化造成的国民劣根性,更重要的是试图重建国民精神,实行思想启蒙,以此"教导国民
<正> 一、引言有段石锛和有肩石器普遍发现在中国南方地区,是中国南方地区新石器时代具有浓厚地方性特征的遗物。有段石锛,是石锛中的—个特殊类型。它与普通石锛一样,单面刃
本文在对缓刑制度的基本概念以及相关理论进行阐述的基础上,着重对缓刑制度的根据进行了梳理和总结,并对在司法理论和实践中出现的种种问题进行深入地思考与论证,最后提出了完善
人类对自然环境的改造,干扰和破坏了地球生物圈的动态平衡,造成愈来愈严重的全球性生态危机,导致传统的法律框架和法学理论难以应对这种变化了的社会现实。为了解决环境问题,
从数学史的角度,讨论了毕达哥拉斯学派的"万物皆数"的思想,以及其提出的古典趣味数学问题。收集介绍了30多种趣味数字(组)问题,为趣味数学的研究提供探索的方向和较全面的资
由于城区的扩张,不透水面积逐年增加,使城区的雨水径流峰值明显增大,汇流时间缩短,大量雨水没有得到充分的利用而白白流失。对城区汛期雨水加以利用,如蓄纳屋顶、路面等不透
经济适用房政策是我国当前解决中低收入阶层住房问题的主要方式。自实施该政策以来,取得了很大成就,解决了大量的中低收入家庭的住房困难,但同时也遇到了一些问题。本文以北
社区获得性肺炎(Community-acquired pneumonia,CAP)是威胁人类健康的主要疾病之一,仅美国一年就有200万~300万人发病,其中住院病人病死率高达14%。因此许多发达国家均进行了
随着现在通信工具的微型化、集成化,微波介质陶瓷作为谐振器、滤波器、振荡器等微波元器件的关键材料,受到人们广泛的重视。作为上述器件的微波介质陶瓷必须具备以下性能:高