论文部分内容阅读
近几年地震灾害频发,如何在地震发生后即时准确地掌握灾情信息,是抗震救灾的关键,也是实施救援措施的重要依据。目前各省地震局相继建立起了灾情信息快速上报系统,统一格式化后形成了地震灾情信息库,但数据库中存在相似重复记录、缺失数据和不一致数据等“脏数据”,对于这些“脏数据”的清洗是保证灾情信息规范性、一致性和完整性的关键。
本文围绕数据清洗技术在灾情信息汇集处理中的应用,着重分析了以下几个问题:
1、灾情信息汇集处理及灾情信息库的建立:地震发生后,快速获取灾情信息才能及时地掌握震情、人员伤亡、建筑破坏等情况,才能快速地作出决策部署,实施抗震救援工作。快速上报系统能够快速汇集灾情在线填报、PDA灾情获取、12322热线灾情获取、手机/彩信灾情获取,遥感影像灾情获取、互联网灾情智能检索等途径获取的灾情信息。根据数据库的需求设计、概念设计建立灾情信息库,以备分析灾情、人员伤亡等灾害损坏情况,为救援决策提供数据支持。
2、灾情数据质量问题分析和检测:灾情信息仓库中存在着缺失数据、逻辑错误、不一致数据和相似重复记录等“脏数据”,针对各种脏数据的特点,设计相应的检测方法,并分析样本的检测正确率,采用快速高效的检测方法以保证数据清洗的效率。
3、增量式规则挖掘技术:本文采用基于包含度的决策树规则提取方法、含信任测度的提取机制,以多元证据信息为对象来挖掘规则,采用增量式挖掘规则,建立规则知识库,以备数据清洗时使用。
4、数据清洗技术及实验验证:设计灾情信息的清洗框架,清洗流程,运用神经网络预测缺失数据,采用蚁群算法在相似区域内搜索最优解,清洗相似重复记录。并在样本测试集上验证本文提出的“脏数据”的检测算法和清洗方法,通过检测率和补齐率验证对缺失数据的清洗效果;并通过对召回率和准确率评估对相似重复记录的数据清洗的效果。