基于用户置信度的数据时效性判定研究

来源 :西南大学 | 被引量 : 0次 | 上传用户：k413287823

【摘要】

：

随着网络信息技术的快速发展,如果大数据中有许多遗留下来的历史数据,那么用户从数据仓库中提取信息时可能会过时或不准确,时效性差的数据可能会对人们的日常生活和企业决策

【作者】

：

安乐乐

【机构】

：

西南大学

【出处】

：

西南大学

【发表日期】

：

2015年期

【关键词】

：

数据时效性用户置信度时效性模型判定算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着网络信息技术的快速发展,如果大数据中有许多遗留下来的历史数据,那么用户从数据仓库中提取信息时可能会过时或不准确,时效性差的数据可能会对人们的日常生活和企业决策分析带来许多不利影响。因此,对数据的时效性判定问题研究对提高数据质量至关重要。当前的数据时效性判定方法可分为三类：基于时间戳的方法、基于不确定规则的方法和基于确定规则的方法。基于时间戳的方法要求完整精准的时间戳,但这样的时间戳在很多实际应用中是不存在。基于不确定规则的方法是针对表达不确定的领域知识,不依赖冗余记录,虽能提高召回率,却会损失精确率。当前基于确定规则的时效性判定算法均是依赖于冗余元组和时效约束关系,但在判定其数据时效性时仅考虑了属性的主观权重。对此,本文在基于确定规则的数据时效性判定方法基础上进行深入研究,定义了综合属性主观权重和属性之间依赖关系的用户置信度,并提出了基丁用户置信度的完备数据时效性判定算法,以提高数据时效性查询结果的质量。同时发现对不完备数据时效性判定的研究比较薄弱,本文还进一步提出了一种基于用户置信度的不完备数据时效性判定方法。(1)针对数据的时效性模型及李默涵等人给出的对数据时效性判定问题的求解算法未考虑属性之间依赖关系,提出了一种基于用户置信度的对完整数据的时效性判定方法。该方法结合用户的主观权重、属性与属性间的依赖关系、冗余记录以及时效约束4个方面进行综合考虑,在对完整数据的时效性判定过程中,用户置信度是依据冗余记录中每个属性的用户主观权重和属性之间的依赖关系,即属性的主客观权重而确定的；并在真实数据和虚拟数据集合上进行对比实验,其结果表明该算法在对完整数据进行数据时效性判定时,其查询结果在准确率、召回率和时效性判定值得到了提高,优于文献[22],进而表明本文所定义的用户置信度因子在处理完备数据时效性判定的权重是合理的和有效的。(2)针对传统数据时效性模型在处理不完备数据时的不足,提出一种基于用户置信度的不完备数据时效性判定方法。首先,依据属性类型分类思想对不同类型的不完备数据集合进行预处理,使其更接近完备数据,有助于时效性建模和时效性判定计算;其次,依据不完备数据的时效约束关系建立不完备数据时效性模型。在对最新值查询判定时,空值不可能是最新值,如果错误数据是最新值,则全都放在最新值的记录集合中,若不是最新值,则对最新值查询的时效性判定值无影响；在时效序列查询判定时,将成对的错误数据作为一个结点按照其时效约束关系进行构造时效图。然后,依据不完备数据集合中冗余记录的属性主观权重和属性之间依赖关系即客观权重计算其用户置信度。最后,将本文提出的基于用户置信度的不完备数据相关时效性判定方法在真实数据集和虚拟数据集上进行实验,其结果表明该方法在时间复杂度为多项式时间的前提下是有效的和可行的。

其他文献

基于CCP协议的电控发动机标定系统的研发

目前，各个汽车生产厂商的电控系统中都对发动机采用电子控制装置 (ECU)，发动机中各个参数的标定早已成为关注的焦点，它直接决定了整个发动机的动力性能、舒适性能以及污染指数，而

学位

汽车电子发动机标定系统CCP协议标定软件

基于全局和局部运动模式的人体行为识别研究

随着计算机技术的迅速发展,图像和视频数据的海量增长推动着计算机视觉研究和应用的不断发展,同时也促进了模式识别,人工智能和机器学习等相关领域的发展。人体行为识别作为

学位

行为识别运动模式Kalman预测动态时间规整模式匹配

基于支持向量机的网络漏洞分类方法的研究

随着计算机技术的不断发展，网络安全的问题也越来越受到人们的关注，其中网络漏洞的存在是影响到网络安全的根源之一。对网络安全来说，如何规范、合理的对漏洞进行分类就显得尤为

学位

网络漏洞支持向量机特征加权二叉树漏洞分类哈希表

投影寻踪模型在文本聚类算法中的应用研究

快速、高效的文本聚类算法有助于从大量非结构化的文本源中发现和挖掘其所蕴含的巨大潜在知识。文本数据以向量空间模型表示成特征向量，往往呈现出高维特征。利用投影寻踪模型

学位

文本聚类特征降维投影寻踪遗传算法可视化

中国书画艺术电子化创作的初步算法性探索——美、智能与计算

本学位论文选择了将中国书画艺术电子化创作的论题作为研究中心。本学位论文对中国书画艺术电子化创作中涉及到的若干智能设计与美学创作的重要问题以计算机科学研究的方

学位

书画艺术电子化创作计算机辅助设计人工智能计算机动画计算机仿真

基于FPGA的网络物理隔离器的设计与实现

目前,市场上流行的网络物理隔离器件硬件系统,往往基于工控机或者多片嵌入式芯片构成,实现复杂、成本较高。本文首次提出了基于大规模逻辑门阵列FPGA(Field Programmable Gat

学位

NiosIIFPGA物理隔离器μC/OS-IILWIP

非领域知识依赖的文本摘要方法的研究

信息时代如何短时间内获取最有用信息以适应社会的生存和竞争的问题,越来越被人们重视。信息摘要作为该问题的主要解决手段受到广泛关注。由于自然语言文本是信息记录和传播

学位

文本摘要左归处理潜在场景分析自然语言处理

基于Web的泛在网应用开发及地址分配技术研究

随着微电子、无线通讯等技术的发展,越来越多的智能设备被发明并被广泛应用于诸如物流运输、环境监测、智能家居和健康医疗等领域。这些数量众多、功能各异的智能设备是泛在

学位

基于Web的泛在网RESTful Web服务业务支撑平台地址分配机制示范应用

应用空间语法理论对香港道路网建模及分析

空间语法是一种研究空间组织结构与人类社会活动之间的相互关系的理论方法和分析工具。然而，其传统的轴线模型在对道路表示方面存在着局限性。因此，在此基础上得到的关于道路网

学位

空间语法理论道路网建模空间预测能力

基于Java的远程在线监测系统

目前,随着互联网和计算机技术的发展,基于网络的实时在线监测系统成为企业对监测系统追求的新目标。国内的状态监测研究与应用仍存在不足之处,主要表现在传感器配置不完善,监

学位

远程在线监测数据采集Java数据库设计

基于用户置信度的数据时效性判定研究

与本文相关的学术论文