基于动态散列和事务压缩的频繁项集挖掘的研究与实现

来源 :北京工业大学 | 被引量 : 1次 | 上传用户:boge66
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
面对互联网和大数据时代的来临,数据挖掘对人们生活的影响越来越大。关联规则挖掘作为其关键部分,可以通过各种算法从海量数据中找出隐藏在其中的相关信息。找到所有频繁项集是关联规则中最重要的阶段。高效的频繁项集挖掘算法将大大提高关联规则的时间和空间效率。挖掘频繁项集主要分为连接步和剪枝步两部分,这两部分的算法效率将直接影响到频繁项集的生成时间和空间大小。本文首先研究了经典Apriori算法低时空效率的缺点,同时研究了当前频繁项集挖掘的研究成果。之后,研究了经典Apriori算法在连接步骤和剪枝步骤中的原理。同时,研究了基于散列的频繁项集挖掘方法以生成候选项集的方法。随后以大量数据集为例,为提高频繁项集的生成效率,改进了动态散列进行频繁项集的挖掘算法。根据对原理和实验结果的分析,结合数据集的数据特点,提出了4种影响动态散列的主要因素。并且为解决不同数据特点的数据集,细化了动态散列的适用范围和场景。在分析了动态散列进行连接的特点,提出影响因素之后,本文针对动态散列处理后的数据和经典Apriori算法,提出了一种基于事务压缩的改进算法。通过设计相关实验,以连接步的不同方法作横向对比实验,将改进后的算法与经典Apriori算法作了纵向对比。实验结果显示,基于事务压缩的改进算法具有较好的效率。最后为解决含不同数据特点的大规模数据集进行频繁项集挖掘问题,设计了动态散列和事务压缩相结合的改进算法。最后将改进后的算法应用到校园网的关联规则挖掘中,以校园网的web日志为数据集进行了关联规则的挖掘。根据挖掘的结果,为校园官网的结构优化、网站布局、相关推荐、响应速度、异常操作等决策提出了可行性的建议。
其他文献
未明协议的发现与流量分类是网络流量分类的一个分支,旨在从海量的网络数据中发掘出新的协议和应用,并对多种协议的混合数据进行分类。相比于已明协议,未明协议具有协议规范
近年来光伏发电已经成为最常见的太阳能利用方式,并且随着能源革命的进行在世界各国范围内被广泛应用,因此全球光伏的装机容量迅猛增长。但是光伏电站的运维问题随之而来,因为太阳能资源本身的能量密度较低难以集中收集,所以光伏电站往往需要很大的占地面积才能对太阳能进行有效接收,装机的组件数量也十分庞大,这让电站高效的运维变得十分困难。同时,光伏电站一般安装在荒漠、山地等土地资源较差的自然环境中,需要长期面临户
随着互联网技术的飞速发展,各行各业都在使用信息化的手段来判断行业趋势,指导行业发展。各应用领域在信息化过程中所产生的数据也呈爆炸式增长。如何从这些数据中发现有价值
工业控制系统的正确可靠对经济发展、人身安全和社会稳定有着重要意义。工业控制系统面对的一个基本问题是控制中的时序问题。如何从时序规约(specification)自动生成满足该
因为在处理有问题的标记和捕获标记之间的高阶相关性上的有效性,标记嵌入(LE)已经被成功应用在很多领域。LE会先将原始标记嵌入到一个新空间,然后再学习从特征到嵌入标记的映
坡背后村是位于滇东南富宁县的一个以红苗为主要聚居群体的村落,巫傩信仰在百余年的村落发展中生生不息地延续下来。本研究以巫傩信仰为研究对象、以秩序为研究主题、在描述与分析的基础上,聚焦其社会实践的意义,并将民间宗教作为主要变量纳入其中,探讨巫傩信仰与村落秩序建构的若干问题。全文共由七章内容组成。第一章对研究背景、研究目的、研究方法、创新之处等进行介绍,对相关学术史进行回顾。第二章在对坡背后村自然环境和
钛及钛合金经过特定的阳极氧化工艺,可得到彩色的氧化膜,能提高耐蚀性和装饰性能。在生物医学材料领域,钛及钛合金经阳极氧化后,表面具有更高的生物活性和生物相容性,可作为生物种植体材料。本文用阳极氧化法分别在Na OH电解液、H_3PO_3电解液、Na_2Si O_3盐溶液中对Ti6A14V(TC4)钛合金进行不同工艺参数下的氧化着色。通过金相显微镜、SEM、XRD、XPS、AFM和3nh色差仪等测试方
算法学习是人工智能的核心问题之一,它是指机器通过输入-输出样例自动学习算法。神经网络图灵机引入外部记忆模块增强了网络存储临时信息的能力,它适合捕捉算法学习中存在的
无线传感器网络(Wireless sensor networks)是物理信息系统的一个重要组成部分,它通过一组空间分散的专用传感器用于监测和记录环境的物理条件,并在中心位置管理收集到的数据
随着科技的迅猛发展,不同类型的应用场景以及用户规模不断增多,网络的发展逐渐由技术驱动变成了应用驱动。多元化的应用场景也产生了多样化的QoS需求,传统网络架构下的QoS保