数据清理相关论文
政府机构改革后,自然资源管理部门普遍存在应用系统分散、数据标准不一、一数多源、数据不好用等问题。针对这些问题,本文以自然资源......
老年人口的快速增加是一个迫切的社会问题。近些年来,科研人员在研究如何能够让老人在家中安全养老付出过很多努力。研究发现,行为......
该文在概述了客户关系管理和数据挖掘的基本原理基础上,介绍了数据挖掘如何应用于客户关系管理当中,即通过分析客户数据得到关于客......
开放街道地图(OpenStreetMap,OSM)数据由大众自发标报,因而存在大量虚假、低质量、冗余数据,其冗余数据清理研究成果乏善可陈。为......
随着网络应用和企业决策支持系统的需求持续增长,越来越多的应用需要访问各种异构数据源,数据集成成为时下研究的一个热点。而关于......
数据仓库技术是信息领域中近年来出现并发展迅速的一种计算机技术,它可以对原始的操作数据进行各种处理,转换成有用信息,充分利用这些......
该文对数据清理方面的知识进行了比较全面、详细的描述.介绍了数据清理的概念、意义和国内外的研究现状.并对数据清理的原理、方法......
对于建立在数据仓库之上的决策支持系统,数据的正确性对避免错误的决策是至关重要的,错误的数据将会导致"垃圾进,垃圾出".因此在构......
目前数据转换在功能、效率、以及支持自动转换等方面存在不足,作者对转换方法、数据转换的优先次序算法、XML与关系模式之间的自动......
在大型的、现实世界数据库或数据仓库中的数据有一些共同的特点:数据不完整(有些感兴趣的属性缺属性值,或只包含聚集数据)、含噪声......
本文述数据清理原理的基础上,着重从属性清理和记录清理两方面对数据清理进行了研究。在属性清理方面,为检测出异常的属性值,针对不同......
随着经济的迅速发展,人口膨胀、资源危机、环境污染等问题的出现使人们越来越认识到可持续发展的重要性。实施可持续发展战略,走可持......
时间序列是一类重要的数据类型,广泛存在于金融、事务处理和科学研究等领域中。时间序列挖掘通过对过去历史行为的客观记录分析,提取......
随着互联网和信息技术的快速发展,特别是Web的全球普及,使得Web上的用户数目和信息量都在不断地增加。这样就产生了两方面的主要问题......
数据质量对数据建模和数据分析具有直接影响,如模型的泛化能力和分析的精度等,开展数据异常检测和修复在数据质量工程、数据挖掘中......
随着信息全球化的到来,全球数据总量呈爆炸式增长,然而物理存储资源的增长速度远低于数据总量的增长速度,传统的存储方式也亟待改......
<正>《不动产登记暂行条例》已于2015年3月1日正式施行。作为全国首批不动产统一登记示范点的泸州、徐州、青岛等15个城市在全国率......
随着通信技术及网络技术的发展,互联网已经将大量的数据源联结在一起,形成一个巨大的、分布式异构数据库环境。越来越多的应用需要集......
随着互联网的不断发展,人们每天可以接触和产生大量的数据,随之导致信息的利用率出现下降,出现了所谓的信息过载问题。推荐系统是......
在一般数据处理方法分析的基础上,研究了适用于载人游乐设备运行数据的数据清理、数据集成、数椐归约、数据变换等数据处理技术,给......
知识图谱与知识库在很多类型的应用中被广泛使用,例如语义网络,机器翻译,查询扩展,文本分类等。此外,分类知识库也在数据清理,实体......
随着信息技术的发展,管理信息系统已成为当今社会各个领域不可或缺的管理工具,它可以提供便捷、准确和全方位的服务,帮助管理人员对各......
2007年底,原交通部下发了《关于开展部省道路运输信息系统第二批联网工作的通知》,致力于实现道路运输业务管理信息全国共享。安徽省......
质监事业近年来的发展历程,从某种意义上讲,也是信息化不断发展的历程.重庆质监系统自2006年开始信息化建设以来,逐步建立了相应的......
数据清理中重复记录的识别一般采用动态规划算法或过滤算法,然而很少算法考虑了数据中的缩写问题,因此容易漏掉一些重复记录,影响......
目的探索空气污染对医院就诊影响的时间序列分析数据前处理方法。方法根据数据特征制定数据清理流程和数据清理规则,通过Excel软件......
随着社会的不断发展和进步,对各类图书馆的管理和服务也提出了更高的要求.图书馆资产数据清理是完善图书馆管理与服务的基础内容,......
随着集装箱码头业务量的增长,在码头TOS (Tape Operating System)数据库应用中,经常会有一些几十GB,上百GB的数据表。年吞吐量越大的码......
数据清理是E R P系统上线中最难攻的关,业界素有“三分技术、七分管理、十二分数据”的说法.“枣庄公司作为山东电力集团公司17个......
结合工作经验,针对目前计算机审计中电子数据采集的现状,对计算机审计中电子数据的清理进行了详细的研究,希望能为同行提供参考.......
资产全寿命周期管理中,转变传统观念,创新管理方法,强调阶段的划分,打破部门壁垒,建立部门协同机制,让运检部门管理的PMS设备主数据与财......
随着中国教育体制改革的不断深入,教育的工作重心已由规模发展逐步转移到内涵发展上来。《国家中长期教育改革和发展规划纲要(2010~20......
随着计算机的普及与Internet的发展,信息技术的大量应用,人们做决策时对数据的依赖性越来越强.通过了解数据清理的概念、意义,分析......
提出基于P2P技术RFID网络数据清理模型能够通过在相邻节点间互换信息来判别和清除错误的RFID信息,在保证了较高的信息准确性的同时......
本文介绍了ERP项目实施数据清理中EXCEL的重要性,EXCEL作为主要工具数据清理阶段主要工具存在的原因和意义。在数据清理阶段,EXCEL处......
鞍山供电公司作为辽宁省电力有限公司ERP项目第一批试点单位之一,在ERP项目建设过程中,不断总结出科学合理的ERP管理方法,并不断应......
针对数据源中出现的错误数据,分析了孤立点检测方法在数据清理中的重要性,提出了一种基于孤立点检测的错误数据清理方法.在对常用......
针对弱约束非合作目标的轨迹具有复杂性、海量性和实时性等特点,传统轨迹分析处理技术较难有效发挥作用,提出了弱约束非合作目标轨......
经验分析在经济学研究中已占据主导地位,微观数据则是构建经验分析大厦的基石。但中国经济学界关于微观数据本身的讨论还很少,如何......
问卷调查是心理与教育领域十分常见的数据收集方法,而被试的不认真作答可能导致问卷数据失真。回顾已有研究发现:(a)不认真作答可......
地籍管理是土地管理的基础,如何管好、用好地籍信息,并保持信息的现势性,是国土管理部门的一项重要工作。深圳市规划国土局罗湖分......
针对重复记录清理中的"排序、识别、合并"算法存在的问题进行了改进。改进后的重复记录清理算法在保证记录匹配率的情况下有效地提高......
采用 Logistic回归分析方法,以 SAS 统计软件为工具,针对普通长途电话的业务流失进行建模,获得了可操作的电信业务流失的数学模型.......
数据仓库是为决策服务的,这里的数据是从各种异构的数据源中采集过来的。由于各个数据源中的数据可能存在错误以及种种不一致性,因......
数据清理转换是数据仓库中的一个重要研究领域,其技术难点之一是重复记录的识别。介绍了与重复记录识别相关的字符串匹配方法,详细......