论文部分内容阅读
随着互联网、物联网、云计算等信息技术的迅猛发展,信息技术与政治、经济、军事、科研、生活等领域的传统应用不断融合,催生了超越以往任何年代的海量数据。同时,遍布世界各地的智能移动设备、传感器、电子商务网站、社交网络每时每刻都在生成类型各异的数据。面对大量的数据,如何及时、有效地进行数据分析,从中提取与人们生活习惯密切相关的潜在模式,是信息时代政府、企业急需关注的问题。例如证监会通过对某只股票的买方、卖方成交价格及数量的分析,判断该只股票是否存在内幕交易及庄家控盘;支付宝网络技术公司通过分析支付宝用户在网络平台的消费记录,获得不同群体的消费习惯,并制定相应的营销策略;交通部门通过分析不同时段路网的车流信息,制定限行限停政策,缓解城市交通拥堵现象。数据挖掘是指在数据库中寻找重要的、未知的、潜在有用模式的过程,高效用项集挖掘是数据挖掘的中心任务之一。本文研究了高效用项集挖掘领域的七个问题,创新性研究成果如下:1)提出了静态数据库上的高效用项集挖掘和top-k高效用项集挖掘算法。静态数据库上的高效用项集挖掘和top-k高效用项集挖掘面临的主要挑战为在项集效用的计算过程中产生候选项集数量巨大的问题,这不仅消耗了大量的内存空间,而且校验候选项集耗时巨大。因此,本文提出了一个基于树结构的高效用项集挖掘算法HUITWU和一个top-k高效用项集挖掘算法TKHM。HUITWU采用树结构HUITWU-Tree存储数据库中的项集信息,采用“效用数据库”存储项集在事务中的效用,在挖掘中对由树结构生成的项集通过项集与效用数据库的对应关系,直接计算项集在数据库中的效用,避免了候选项集的产生。TKHM同样采用HUITWU中的数据结构,在其构建过程中采用两个阈值提升策略提升初始值为0的最小效用阈值,在挖掘过程中直接计算项集在数据库中的效用,动态地提升最小效用阈值,避免了top-k高效用候选项集的产生。通过实证研究,与同类算法相比,HUITWU和TKHM的时空效率提升明显。2)提出了静态数据库上的闭合高效用项集挖掘算法。静态数据库上的闭合高效用项集挖掘面临的主要挑战为在闭合高效用项集的计算过程中,产生的候选项集数量巨大,本文提出一个不产生候选项集的算法Clo HUI,Clo HUI采用新的树结构HUITWU-Tree+存储数据库中项集及其在数据库中的频数,使用效用数据库存储项集在事务中的效用信息,在挖掘中本文提出了一个有效的策略校验闭合频繁项集,然后对闭合频繁项集计算其在数据库中的效用,判断其是否为闭合高效用项集,整个过程避免了候选项集的产生。通过实证研究,与同类算法相比,Clo HUI的时间效率提升明显。3)提出了高效用项集增量挖掘算法和交互挖掘算法。高效用项集增量挖掘和交互挖掘面临的主要挑战为在挖掘高效用项集的过程中产生的候选项集数量巨大,本文提出了一个高效用项集增量挖掘算法IHUI-Miner和一个高效用项集交互挖掘算法FIHM。在IHUI-Miner中本文提出一个新的树结构IHUIL-Tree存储原始数据库或更新数据库中的项集,在挖掘过程中直接计算项集在数据库中的效用,避免了候选项集的产生。FIHM构建了一棵包含数据库中所有项的HUITWU-Tree,在挖掘过程中无需生成候选项集。通过实证研究,与同类算法相比,IHUI-Miner和FIHM的时间效率提升明显。4)提出了基于滑动窗口的数据流高效用项集挖掘算法和top-k高效用项集挖掘算法。基于滑动窗口的数据流高效用项集挖掘和top-k高效用项集挖掘面临的主要挑战为在挖掘过程中产生的候选项集数量巨大,本文提出一个基于滑动窗口的数据流高效用项集挖掘算法HUISW和一个基于滑动窗口的数据流top-k高效用项集挖掘算法TK-HIS,HUISW采用新的树结构HUITWU-Tree+存储滑动窗口中的项集,在挖掘过程中直接计算项集在滑动窗口中的效用,避免了候选项集的产生。TK-HIS采用HUISW中的数据结构,使用提出的两个阈值提升策略提升初始值为0的最小效用阈值,在挖掘过程中直接计算项集在滑动窗口中的效用,动态地提升最小效用阈值,避免了top-k高效用候选项集的产生。通过实证研究,与同类算法相比,HUISW和TK-HIS的时空效率提升明显。