数据清洗在灾情信息汇集处理中的应用研究

来源 :成都理工大学 | 被引量 : 0次 | 上传用户:luocai1982
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年地震灾害频发,如何在地震发生后即时准确地掌握灾情信息,是抗震救灾的关键,也是实施救援措施的重要依据。目前各省地震局相继建立起了灾情信息快速上报系统,统一格式化后形成了地震灾情信息库,但数据库中存在相似重复记录、缺失数据和不一致数据等“脏数据”,对于这些“脏数据”的清洗是保证灾情信息规范性、一致性和完整性的关键。   本文围绕数据清洗技术在灾情信息汇集处理中的应用,着重分析了以下几个问题:   1、灾情信息汇集处理及灾情信息库的建立:地震发生后,快速获取灾情信息才能及时地掌握震情、人员伤亡、建筑破坏等情况,才能快速地作出决策部署,实施抗震救援工作。快速上报系统能够快速汇集灾情在线填报、PDA灾情获取、12322热线灾情获取、手机/彩信灾情获取,遥感影像灾情获取、互联网灾情智能检索等途径获取的灾情信息。根据数据库的需求设计、概念设计建立灾情信息库,以备分析灾情、人员伤亡等灾害损坏情况,为救援决策提供数据支持。   2、灾情数据质量问题分析和检测:灾情信息仓库中存在着缺失数据、逻辑错误、不一致数据和相似重复记录等“脏数据”,针对各种脏数据的特点,设计相应的检测方法,并分析样本的检测正确率,采用快速高效的检测方法以保证数据清洗的效率。   3、增量式规则挖掘技术:本文采用基于包含度的决策树规则提取方法、含信任测度的提取机制,以多元证据信息为对象来挖掘规则,采用增量式挖掘规则,建立规则知识库,以备数据清洗时使用。   4、数据清洗技术及实验验证:设计灾情信息的清洗框架,清洗流程,运用神经网络预测缺失数据,采用蚁群算法在相似区域内搜索最优解,清洗相似重复记录。并在样本测试集上验证本文提出的“脏数据”的检测算法和清洗方法,通过检测率和补齐率验证对缺失数据的清洗效果;并通过对召回率和准确率评估对相似重复记录的数据清洗的效果。
其他文献
目的:探讨流程化急救护理在急性脑卒中救治中的应用效果.方法:选择我院近三年收治的82例急性脑卒中患者作为本文研究对象,按照数字表随机分组法将82例被选取的对象分为对照组
目的:观察综合护理干预措施在先兆流产患者的护理中的护理效果.方法:选取我院2018年3月至2019年3月收治的80例先兆流产患者,将患者随机分组,每组40例,采用常规护理方式的为对
学位
从中医角度分析,艾灸可温经散寒、防病保健以及打通经络等效果,“治未病”的思想是中医医治的重要指导思想.目前,可将其应用在预防心脑血管疾病、抗衰老等方面,以及调整亚健
在传统无线网络中,能量续航的方式通常为有线供电或定期更换电池,因此在便捷性方面有显而易见的不足。对于一些特殊条件下的无线网络架构,传统的供能方式不再适用,此时能量收集技
胃底静脉曲张是门脉高压的主要表现,最常见于肝硬化失代偿期,常合并食管静脉曲张,是上消化道出血的常见病因,孤立性胃底静脉曲张(Isolated gastric varices,IGV)是较少见的,
目的:分析研究健康教育对初产妇剖宫产后母乳喂养依从性、护理服务满意度的影响.方法:选取本院收治的48例行剖宫产初产妇开展本次试验研究,纳入时间为2018年07月-2019年07月,
目的:观察及分析生脉散加味联合基础疗法治疗糖尿病周围神经病变的成效.方法:纳入研究的病患是60例糖尿病周围神经病变患者,划分成实施基础疗法的参照组(30例)以及实施生脉散
低密度奇偶校验(Low-Density Parity-Check,LDPC)码是一类逼近香农极限的信道编码方案,其性能优越且实现复杂度低,因而在通信系统中应用十分广泛。论文旨在研究一种低码率LDPC码
目的:分析保妇康栓对宫颈炎合并HPV感染的治疗效果.方法:选60例宫颈炎合并人乳头瘤病毒感染患者,观察组在月经期过后的三天之后对其进行保妇康栓药物治疗.对照组患者不进行任