大数据集序列模式挖掘算法研究

被引量 : 0次 | 上传用户:rowhwafo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
序列模式挖掘是数据挖掘中的一个重要研究课题,其最早在1995年被Agrawal和Srikant提出。与其他的数据挖掘算法相比,序列模式挖掘算法主要是基于有序的数据集来挖掘出现频率高的序列模式,它具有实用性和易于理解的优势,因此受到了国内外专家学者的广泛的关注和深入的研究,其应用范围也从最初的购物篮分析扩展到自然灾害的预测、DNA序列分析、疾病诊断等诸多领域。序列模式挖掘从其被提出到现在,产生了很多经典的算法。其中应用最为广泛的是PrefixSpan算法。该算法采用前缀投影技术,能够有效地避免候选项集的产生,在一定程度上提高了挖掘的效率。然而PrefixSpan算法也有一些缺点,它需要构造大量的投影数据库,构造投影数据库不仅需要消耗巨大的内存,而且增加了扫描时间,降低了挖掘效率。针对这个问题,本文对PrefixSpnan算法进行了改进,提出了一种基于隔层投影的BLSPM算法,该算法可以大大减少投影数据库的构造数量,从而提高挖掘效率。此外该算法提出序列模式值的概念,通过计算每个频繁序列的序列模式值,然后按照序列模式值的大小对挖掘结果重新排序,使之能够找到最重要的序列模式。最后采用实验验证,分别从不同支持度、不同类型的数据集、不同大小的数据集三个方面来验证BLSPM算法的挖掘效率。此外,针对BLSPM算法在大数据集下的挖掘效率较低的问题,本文提出了基于Map-Reduce的BLSPM算法,并选取了超市的商品摆放作为应用实例来验证基于Map-Reduce的BLSPM算法的实用性和有效性。本文的主要工作及创新点如下:(1)改进PrefixSpan算法,提出BLSPM算法。首先进行有效的剪枝,即在构建投影数据库时,如果序列模式中支持度小于最小支持度时,对其剪枝,将它们从序列数据库中删除,这样可以减少部分投影数据库的扫描时间。其次,提出一种隔层投影的方法,即在挖掘长度为奇数的序列模式时,按照原来的方式构造投影数据库;在挖掘长度为偶数的序列模式时,不用构造投影数据库,取而代之构造一个下三角的M矩阵,这样可以大大的减少投影数据库的构造数量,从而可以减少投影数据库的扫描时间。最后引入“序列模式值”的概念,将该算法的挖掘结果按照“序列模式值”的大小进行重新排序,从而能够找到最重要的序列模式。(2)通过实验验证BLSPM算法效率。首先对比两种算法的挖掘结果,得出BLSPM算法能够找到最重要的序列模式,从而更符合实际需求。其次分别从不同支持度、不同类型的数据集、不同大小的数据集三个方面进行实验,验证BLSPM算法在效率和性能上优于PrefixSpan算法。(3)将BLSPM算法Map-Reduce化。在实际的应用中,当面对海量的数据集时,BLSPM算法挖掘效率也面临瓶颈,因此提出了基于Map-Reduce的BLSPM算法。该算法采用分布式处理的方式,将大数据集均衡划分为多个小数据集,并在每个节点上并行的进行序列模式挖掘。该算法可以分为五步:数据分片,并行计数,构建下三角矩阵,均衡分组,并行挖掘。最后通过实验验证基于Map-Reduce的BLSPM算法的效率。第一组实验验证算法在单机和hadoop平台上加速比,第二组实验验证算法在不同大小数据集下的挖掘效率。通过两组实验得出,基于Map-Reduce的BLSPM算法能够提升在大数据集下的挖掘效率。(4)将算法应用到超市商品摆放的案例中。为了验证算法实用性,将基于Map-Reduce的BLSPM算法应用到实际的案例中,首先通过分析超市的历史销售数据,将其进行清理、采样等操作,使之转变为序列数据库,然后采用基于Map-Reduce的BLSPM算法进行挖掘,找到利润较高的商品,从而调整货架摆放,提升销售利润。该过程分为两步:第一步在不同的商品种类间挖掘序列模式,然后根据挖掘后的结果来指导商品种类的布局。第二步在每个种类内进行挖掘,引入利润指标,将其作为“序列模式值”的权重值,然后计算每个频繁项集的“序列模式值”,并按照“序列模式值”的大小重新排序,找到销售利润最高的商品,进而调整货架摆放,提高销售利润。
其他文献
目的探讨高血压合并阻塞性睡眠呼吸暂停综合征(OSAS)患者降压治疗后血压的变化。方法选择降压治疗期间血压正常的70例高血压患者,其中单纯高血压组21例,合并OSAS组49例,选择
在新时代的今天,在“中国梦”的指引下,中小学艺术教育作为我国教育事业不可缺少的组成部分,发挥着重要的作用。而在我国,农村人口相对比例偏大,所以农村中小学艺术教育自然
犬的传染病具有高发病率及高死亡率的特点。近年来,以犬瘟热的暴发尤为突出,1997、1998年两年我省三个较大警犬基地均暴发过犬瘟热,共死犬20余头,严重影响基层公安机关开展警
绝大多数企业都会有一个从小到大的企业生命周期,在这样的生命周期发展过程中,企业所处生命周期的不同阶段直接影响到其竞争战略、组织结构的选择,不过,企业竞争战略也并不是
针对近些年来芝麻油掺伪现象日益严重的问题,对目前采用的芝麻油品质检测方法及其研究现状进行了综述分析。主要介绍了常用的显色法、色谱法、光谱法、电子鼻技术以及一些联
通过稳定剂、发酵剂和白砂糖不同添加量对养乐多酸奶质量的影响试验,研究了养乐多酸奶的最佳配方。试验结果表明:最佳配方组合为A2C2B3,即发酵剂添加量为2%,白砂糖添加量7%,
目的探讨瑞舒伐他汀联合银杏叶提取物对腔隙性脑梗死后焦虑的治疗效果。方法 80例腔隙性脑梗死后焦虑患者随机分为治疗组和对照组,每组40例。对照组给予银杏叶提取物,治疗组
全球范围内,制造业服务化转型是经济发展与商业模式创新的重要趋势。重型机械制造业作为一国的基础性工业,是一国工业水平的重要标志,新时期我国重型机械制造企业服务化转型
针对塑料食品包装造成的严重环境污染问题,可食用和生物降解的环保型聚合物受到了越来越广泛的关注。在这些天然聚合物材料中,淀粉因其来源广泛、可再生和价格低廉而被看作是
随着经济的发展,近年来,山东省毛皮动物养殖业发展迅速,目前已成为我国毛皮动物养殖第一大省,毛皮动物饲养量约占全国的二分之一。但是随着我省毛皮动物养殖业集约化程度的提