网络开源数据可用性评价系统

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:anquanke123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在大数据时代,人们可以很方便快捷地通过不同的渠道在互联网上获取到各类数据。这些数据由于人为录入的错误、数据版本的不同、数据来源不同、人为篡改等原因往往会存在数据属性缺失、数据相似重复、数据属性值异常等问题。这些错误数据可能会造成数据冗余,浪费存储的空间,更严重有可能会导致数据挖掘时产生严重的偏差,进而给出错误的决策[1]。针对上述问题,需要对三类错误的数据情况进行识别,评价数据的可用性,建立指标体系对数据的可用性进行打分。本文针对数据可用性评价的问题,设计实现了网络开源数据可用性评价系统,并阐述了属性缺失型数据、相似重复数据以及数值异常型数据的识别方法,用来计算定量评价指标的数值,并提出了从准确性、一致性、完整性、唯一性、时效性、可操作性、适用性等七个方面对数据可用性进行全面评价,建立数据可用性评价体系。本文首先实现对错误数据进行识别,其中包括对属性缺失型数据、相似重复数据、数值异常型数据分别进行识别并统计识别的结果。将识别的结果用来计算数据可用性评价中定量指标的数值。其中主要介绍了基于属性集差异的方法实现对列属性缺失型错误数据的识别,通过寻找具有规律排序的数字序列实现对行属性缺失型数据识别。使用改进的基于编辑距离的字段匹配算法和近邻排序算法实现对相似重复数据的识别。改进的基于编辑距离的字段匹配算法能够处理字符串顺序颠倒的情况,提高了算法的普适性。改进的近邻排序算法,解决原始算法对排序关键字的依赖,并将窗口设为滑动窗口,提高了相似重复数据的识别率。其次本文实现了对数据可用性进行评价,建立数据可用性评价体系,确定各指标的权重。从准确性、一致性、完整性、唯一性、时效性、可操作性、适用性等七个方面对数据可用性进行评价。通过专家打分法和层次分析法相结合的方法确定数据可用性评价体系中各指标的权重。最终计算出数据可用性的得分,实现对获得的不同数据集进行评分,评价数据的可用性。最终设计实现了一个网络开源数据可用性评分系统,能够对数据集的可用性进行评分,其评分结果合理可信。
其他文献
社会网络分析是数据挖掘的新热点,社会网络是由个人或组织以及相互之间的联系所构成的集合,通过对社会网络的理论研究,尝试挖掘隐藏在表面关系之下的隐性关系,可以进行电子商
实时操作系统(Real-time Operating System,RTOS)是基于可剥夺式的CPU调度方式,以其实时性强,可靠性好,移植性方便,安全性能好等优点,被广泛运用在航空航天、工业控制,汽车电子和核
随着互联网技术的迅速发展,Web信息正以指数级的速度增长,如何在这些海量的信息中检索出用户需要的信息已成为一个非常重要的课题。由于用户查询词与文档关键词不匹配,传统信
随着Kerberos和SAML (Security Assertion Markup Language,安全断言标记语言)等技术的不断发展,跨域单点登录技术已经成为了信息安全领域的研究热点。现有的几种跨域单点登
群搜索优化算法是S. He,Q. H. Wu和J. R. Saunders.于2006年共同提出的,来源于对动物觅食行为和群居形态的一种模仿,并首次利用了生物学的视觉搜索原理。但标准群搜索优化算
睡眠障碍对人类健康的危害和对生命安全的威胁已经逐渐引起人们的重视,针对睡眠障碍的自动监测分析系统已成为国内外医疗仪器领域的重要研究课题之一。嵌入式系统以其体积小
随着流媒体技术和无线通信技术的快速发展,无线流媒体传输成为网络应用的热点之一。多媒体数据在给人们带来丰富多彩的服务的同时,也带来了新的挑战。实现多媒体数据在无线网
私有信息检索(Private Information Retrieval,PIR)允许用户检索n-比特串d=d1d2…dn的第i个比特di,而不泄漏i的任何信息。在私有信息检索中加入对服务器的数据隐私的保护,私有
车牌牌照自动识别系统(LPR)是智能交通系统(ITS)的核心组成部分之一,通过摄像机拍摄的车辆图像,在不影响汽车状态的情况下,自动完成车牌的识别,降低交通管理工作的复杂度,减
近年来,随着物联网的不断发展,人们对作为物联网核心技术之一的RFID/EPC系统的研究也越来越深入。尽管大部分企业和供应商把重心放在RFID/EPC系统的实施效果和它们所带来的投