论文部分内容阅读
作为一门融信号处理,无线通信,嵌入式计算,数据管理为一体的新兴技术,RFID技术正广泛应用于越来越多的领域,如供应链管理,物体跟踪,快捷支付等等。但由于RFID技术采用无线射频信号进行数据通讯,其极易受环境影响,导致在RFID应用中进行数据采集时漏读和错读现象频频发生,而且会产生大量冗余数据以及数据的时间乱序现象,这严重影响了事件检测中查询结果的准确性,阻碍了RFID技术的更广泛应用。因此,对RFID数据进行预处理是保证高质量查询结果的前提条件。针对上面提出的问题,本文对RFID应用中产生的“脏”数据进行数据预处理策略的研究。首先,在对RFID数据进行三元组模型的基础上,本文提出一个数据抽象算法,将RFID数据从数据层抽象到逻辑区域层。它主要是对数据进行抽象压缩,去除大量冗余数据的同时,对数据漏读问题有一定的容忍度。抽象后,数据可被看成简单事件。实验结果表明,RFID数据经过抽象后,数据量极度减少,大大节省系统开销,为下一步数据清洗提供了条件。其次,本文针对RFID应用中“脏”数据的主要类型——漏读数据,在数据抽象的基础上,提出三种填补算法,即贪婪算法,最小k-相似算法和全相似算法。它们对已经发生的事件进行统计学习,并结合逻辑区域本身的漏读情况建立起动态概率事件模型,在此基础上,根据不同的搜索策略查找可能发生漏读事件的最相似事件,据此对漏读数据进行填补,这三种算法大大提高数据的准确率,消除漏读数据对查询质量的影响。理论分析和大量实验证明该数据填补算法的有效性和高效性。最后,本文增加对时间因素的考虑,对上面提出的填补算法进行改进。它主要对概率事件模型进行扩展,引入时间模型,由此提出两种清洗算法的改进策略,即β*改进算法和β+改进算法。β*改进算法是通过直方图分布对时间进行估计,而β+改进算法是通过欧氏距离对时间进行估计,在不同的条件下,两种算法有各自的优势。实验证明改进策略在填补数据准确率方面有一定的优越性。