论文部分内容阅读
RFID(RadioFrequencyIdentification)技术是基于电磁信号检测的无线电通信技术,利用无线射频方式进行非接触的双向通信,以达到识别移动物体的目的。RFID标签具有体积小、容量大、寿命长、可重复使用等特点,可支持快速读写、非接触识别、多目标识别、定位及长期跟踪管理。RFID技术的广泛使用提高了效率,但也给数据的分析和挖掘工作提供了新的难题。从应用中获取的RFID数据和传统条形码数据有所不同,它不但包含了物品的编号,还包含了获取的时间和位置。如果有效地把时间和位置结合起来,将会使RFID数据分析的深度超越传统意义的数据挖掘。但由于RFID具有特殊的数据结构,传统的数据挖掘工具很难直接对其处理,如何进行有效的分析是当前RFID数据挖掘的难题。
论文主要研究数据挖掘中的离群点检测领域。针对两种不同的RFID应用领域产生的序列数据进行研究。一种为对象行为监控应用中产生的行为序列数据,一种为物品流通过程中产生的路径数据。分析了这两类数据的特点并提出了相应的离群点检测方法。论文的主要研究内容如下:
(1)在一些应用中,用户使用RFID技术对对象的行为进行监控,产生了大量的行为序列数据。行为数据反映了对象行为的特征,可以用来发现具有异常行为的对象。研究从大量行为序列中检测异常行为序列的方法。提出序列数据异常度的概念和两种计算异常度的方法。检测算法采用一种变阶马尔可夫模型-概率后缀树对行为序列进行建模。然后使用该模型计算行为序列的异常度。把异常度超过用户指定阈值的行为序列作为异常行为序列。
(2)RFID路径数据中每个节点同时包含地点和时间信息,使路径数据比一般的序列数据更复杂。针对现有的序列数据异常点检测算法不适合处理路径数据的情况,对路径数据的异常路径检测进行了研究。提出适用于路径数据的扩展概率后缀树(EPST)模型和一种采用该模型检测异常路径的方法。该模型用来计算每个路径和路径数据集的相似度。在计算相似度时主要利用了路径数据的“短期记忆”性质,同时考虑了地点和时间信息对路径数据相似度的不同影响。
(3)采用面向对象的软件设计思想,利用C#语言和C++语言基于MicrosoftVisualStudio2010开发平台设计并开实现了RFID数据离群点检测的原型系统,用于对本文提出的算法的效果和性能进行分析。