论文部分内容阅读
近年来,射频识别(RFID)技术快速发展,阅读器侦测范围的增大与识别率的提高,标签种类的丰富与成本的下降,促进RFID技术在越来越多的领域得到应用,且应用范围正在从大宗贵重物品转向单个普通物品。大型零售商如Wal-mart、Target和Albertsons已经开始在其仓库和物流中心部署RFID系统,并要求供应商在商品的小包装上粘贴RFID标签。由于技术的发展以及需求量的增加,RFID标签的价格进一步下降,在单个商品上粘贴标签用以跟踪其在供应链中的移动轨迹已成为现实。随着RFID系统的广泛应用,如何组织和管理系统收集的海量数据成为研究利用RFID技术管理供应链的重点。如此多的数据存储在数据库或数据仓库中,若不善加利用,极易造成“数据爆炸”、“数据坟墓”等问题,因此如何从海量数据中抽取出有价值的信息显得尤为重要。数据挖掘技术为我们解决这一问题提供了一种有效的方法,通过数据挖掘技术可以从大量的、不完全的、有噪声的、模糊的、随机的实际应用RFID数据中,提取潜在有用的信息和知识。
在供应链中应用RFID技术跟踪物品,面临的两个重要问题是:如何组织RFID数据以便能够快速响应用户查询;如何分析RFID数据,发现其中潜在的规律和趋势,用以辅助用户决策。RFID数据中最重要的部分是物品的移动路径,或者称为移动痕迹,挖掘RFID数据主要就是挖掘这些移动路径。在研究现有RFID数据管理和挖掘方法的基础上,本文主要对RFID数据立方体的构建、RFID立方体内异常发现、单层RFID位置序列挖掘以及多层RFID位置序列挖掘等几个方面做了深入的研究。本文的主要创新点如下:
⑴针对传统的数据库不能满足对海量RFID数据查询的快速响应问题,结合现有的数据仓库及OLAP技术,本文提出一种RFID数据立方体的构建方法,根据用户兴趣度确定兴趣层,在兴趣层上选择部分立方体单元进行部分物化,保证在快速构建立方体的同时还能够快速响应用户查询。
⑵以本文构建的RFID立方体为基础,提出了阈值异常和区间异常两种基于回归分析的异常发现方法,根据回归系数帮助用户快速地找出数据单元内的异常数据。阈值异常方法通过比较数据的规格化残差和用户给定的偏差阈值来发现异常数据。区间异常方法在不需要用户给出阂值情况下,通过比较残差绝对值和每个点的置信区间自动发现异常数据。
⑶鉴于传统的频繁模式挖掘和序列模式挖掘方法不能有效解决RFID频繁路径挖掘的问题,本文在充分研究RFID路径数据特点的情况下,重点考虑其中包含的位置序列,在现有的序列模式挖掘方法基础上,提出一种挖掘RFID位置序列的方法。
⑷考虑到RFID数据中地点维具有自然的层次特征,且不同用户的兴趣层次也各不相同,需要挖掘多层的位置序列。为了解决这一问题,本文集成现有的序列模式挖掘方法以及多层序列模式挖掘方法,提出挖掘频繁多层和交叉层RFID位置序列的方法。