论文部分内容阅读
RFID射频识别技术作为一种快速、实时、准确采集与处理信息的高新无线自动识别技术,近年来,随着大规模集成电路、射频通信等的不断发展,RFID已广泛应用于工业自动化、商业自动化、交通运输控制管理等领域,被列为“21世纪10大技术之一”。RFID技术作为一个全新的研究领域,有着广阔的市场前景,但是RFID数据的不可靠性严重制约了RFID技术的进一步发展。其不可靠性主要包括:漏读、多读和冗余读。因此,如何有效地清洗海量RFID数据成为亟待研究的课题。本文深入研究了数据清洗原理、RFID数据的特点及已有的RFID数据清洗策略。针对RFID数据的不可靠性,提出了一种三层清洗体系结构。它们分别为阅读器层、近邻组层和数据表层。每层都有相应的清洗策略,其中阅读器层处理阅读器的多读和漏读问题;近邻组层处理阅读器冗余问题;数据表层根据应用来生成不同的有意义事件,在本文中没有涉及。在阅读器层,鉴于漏读率高时,卡尔曼滤波不能反映真实数据,但却能发现并过滤掉动态变化的标签;而滑动窗口清洗方法的窗口大小难以确定,尤其是在标签频繁动态变化时,容易发生窗口振动,导致错误率剧增。为了更好解决阅读器的漏读和多读问题,需要扬长避短,因此提出了结合卡尔曼滤波和滑动窗口的数据清洗方法。它利用了卡尔曼滤波对RFID数据进行预处理,一定程度上逼近真实值,同时过滤掉动态变化的标签,预处理的标签经过滑动窗口进一步处理,很大程度上消除了漏读、多读,同时窗口中间点输出减少了存储数据需要的空间。在近邻组层,针对冗余读问题,由于RFID数据以流的形式产生,而可供使用的内存是有限的。而Bloom filter具有很好的时间和空间效率,因此本文提出了基于Matrix Bloom Filter的清洗策略TIMBF。TIMBF可以解决数据集动态增加的问题,虽然TIMBF局部的单元数是固定的,但是全局数s是可变的,这就使TIMBF具备了动态调整的能力,解决了BF的分配内存问题的不足,同时又以较少的空间获得小的错误率。为了验证算法的有效性,本文设计了大量仿真实验,实验证实了本文提出算法的有效性和合理性。