面向零售业的关联规则动态挖掘算法研究

来源 :南京航空航天大学 | 被引量 : 0次 | 上传用户:zhangliye5
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着条形码技术的发展和POS(Point Of Sells)系统的普及,零售企业中的日常交易数据被大量收集,这些数据背后蕴藏着巨大的商机。作为数据挖掘中最活跃的研究方法之一,关联规则挖掘技术已被应用到零售行业。然而,零售数据具有结构复杂、海量、随时间动态更新的特性,传统的关联分析技术无法高效地处理这类数据。因此,迫切需要设计具有针对性的数据挖掘算法用以分析零售数据。本文从复杂数据类型的处理、模式的评估以及挖掘结果的解释等问题出发,对交易数据的关联分析中亟待解决的问题进行了研究。本文主要工作如下:(1)针对Apriori算法能够有效处理含有较多短模式的稀疏数据集但运行效率不高的问题,在其设计框架的基础上引入新的数据结构存储频繁项集,提出了一种高维稀疏数据频繁项集挖掘算法FIHS。该算法只需扫描一次数据集,通过优化连接剪枝操作避免产生非频繁的候选项集。理论分析和实验表明,FIHS用于高维稀疏数据集上具有挖掘速度快、存储空间少等优点。(2)针对现有频繁项集挖掘算法不能完全解决数据集动态更新和挖掘参数变化后项集的高效维护问题,提出了一种频繁项集快速更新算法SWFIUA。该算法引入滑动时间窗口概念,在充分利用业已发现的频繁项集的基础上,尽量减少数据集的扫描次数和候选项集的产生个数。实验结果表明,SWFIUA算法在提高更新效率的同时还具有简单、易于维护的特点。(3)为了提高挖掘规则的有趣性,在传统的“支持度-置信度”框架中引入兴趣度量Consine,提出了一种基于兴趣度的关联规则挖掘算法IMAR。该算法对生成规则的形式进行了限制,对强关联规则的概念进行了重新定义,并将挖掘规则分为(正)强规则、(正)弱规则和反规则。同时为了更好的利用关联规则优化业务,提出了“竞争商品模型”和“利润最大化销售模型”。在真实的交易数据集上的实验结果表明,IMAR算法和两个分析模型是有效的。
其他文献
随着语义Web的迅速发展,各种语义Web应用都迫切地需要大规模、统一的语义知识库来支撑。而构建这种知识库理论上和实践中都存在难题,该问题已经成为制约语义Web进一步发展的
虚拟化技术是计算机体系结构中的重要技术。随着电脑硬件性能的提高使得虚拟化技术在计算机领域的应用范围越来越广。因此,虚拟化技术也很可能的成为未来的计算机发展的一种
视觉密码是一种依靠人类视觉系统直接解密的秘密共享技术,其安全强度相当于“一次一密”,它跟普通秘密共享方案一样,存在欺骗问题。虽然大多数视觉密码方案是假设参与者诚实
随着全球信息技术的发展,社会信息化程度迅速提高,数据库技术作为信息系统核心和基础在计算机应用的各个领域都起着至关重要的作用。在当今开放式的互联网时代,许多关键的业务系
学位
随着机器视觉和计算机技术的迅猛发展,视频处理技术的应用领域越来越广泛。由于生产力水平的不断提高,在工业生产中大量应用的机器视觉技术。机器视觉系统有其精确、快速、效率
群智感知是把移动设备作为感知的基本单元,并通过网络进行协作完成感知任务。在群智感知中,节点依靠人的运动而随机移动,所以可以实现随时随地进行感知。而且,群智感知把“存
随着互联网技术及地理信息技术的迅速发展,在互联网中使用GIS数据服务已被广泛应用到社会中的各行各业。协同标绘是以GIS数据发布的地图服务为基础,在二维地图上执行计算机的
面对网络信息呈爆炸式增长的现状,从海量的网络信息中挖掘有效信息、研究信息传播规律,传统串行算法已经不能满足高效率的要求。因此,网络信息处理高性能算法及信息传播模型
放射治疗的根本目标是最大限度地杀灭肿瘤细胞并使周围的正常组织和重要器官免受和尽可能少受不必要的照射。调强放射治疗(IMRT)被放射肿瘤学界认为是放射治疗技术的发展方向
近几年,随着我国铁路路网干线的提速以及高速、客运专线和重载铁路的发展,动车组的速度最高已经达到380km/h,路网设备维护已成为运输生产组织、行车安全中的关键问题,现有的