最大频繁项集挖掘算法及应用研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:wlhkbbc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
频繁项集的挖掘是数据挖掘中的一个基础和核心问题,具有广泛的应用领域。由于它是数据挖掘过程中最耗时的部分,挖掘算法的好坏直接影响数据挖掘尤其是关联挖掘的效率和应用范围。因此,最大频繁项集挖掘算法的研究具有重要的理论和应用价值。在对数据挖掘中的核心问题,即频繁项集的挖掘算法及其并行化技术,进行深入研究的基础上,围绕最大频繁项集的挖掘算法和应用,研究了高效的挖掘最大频繁项集的串行算法和并行算法,并将最大频繁项集挖掘算法应用于入侵检测。频繁项集的挖掘是一个搜索问题,剪枝优化技术是提高频繁项集挖掘效率的一个重要手段。文献中在频繁项集挖掘算法中用到的剪枝优化策略可归纳为:根部剪枝、频繁扩展和不扩展三种策略。在分析与研究传统剪枝策略的基础上,提出了新的剪枝策略——多步回退剪枝策略。多步回退剪枝策略在发现一个最大频繁项集后最多可一次回退k层(k为所发现的这个最大频繁项集的长度),最好情况下可将要扩展的节点数量从降低为。与文献中深度优先搜索中逐层回退策略相比,可大幅度削剪搜索空间,达到提高解决问题效率的目的。最大频繁项集的挖掘是频繁项集挖掘中的重要研究分支。在分析了现有最大频繁项集挖掘算法的基础上,针对其不足,提出了一个改进的挖掘最大频繁项集的算法MinMax(Mining Maximal)。MinMax采用了垂直的数据库表示形式,按照自顶向下深度优先的策略对项集空间进行搜索,采用了多步回退剪枝、根部剪枝、频繁扩展和不扩展等多种剪枝优化策略,大幅度削剪了搜索空间。提出了频繁项的不频繁度的概念,通过对频繁项进行适当的排序发挥了各种剪枝优化技术的优势。垂直的数据库表示形式使得项集的支持度计算可以通过简单的集合交集运算来完成,从而避免了对数据库的多次扫描。实验和分析表明,在长模式密集的情况下,MinMax的性能优于目前同类算法。并行处理是提高解决问题效率的有效办法,在研究了挖掘最大频繁项集挖掘的并行化策略地基础上,基于分布存储结构,将算法MinMax并行化,提出了挖掘最大频<WP=4>繁项集的并行算法P-MinMax(Parallel MinMax)。为了异步执行MinMax,减少处理机之间的制约和等待,P-MinMax基于前缀关系划分等价类,以等价类长度的指数函数为权值,并利用因子项集的完全包含关系在处理机之间贪心分配等价类,根据等价类的需要相应地划分和复制数据库记录,使各处理机得以异步计算,达到了较好的负载平衡、较高的剪枝效率和较少的数据库记录复制,减少了算法的执行时间。分析和实验表明, P-MinMax有较好的可扩展性,其性能优于已有同类算法。 从以数据为中心的观点来看,入侵检测问题实际上是一个数据分析问题。用以入侵检测的数据是主机的审计轨迹数据和网络的审计轨迹数据,这些审计数据中记录了系统和网络上发生的所有活动。基于此种思想,提出了一个基于最大频繁项集的入侵检测系统模型MMID(Mining Maximal for Intrusion Detection)。模型中,针对入侵检测的特点,设计了新的最大频繁项集的挖掘算法MinMax_for_IDS。通过挖掘训练数据中的最大频繁项集建立系统和用户的正常行为模型以及攻击模型,用一个滑动窗口来检测是否有不被正常行为模型覆盖的频繁模式发生,以此达到检测入侵的目的。实验表明,MMID对在短时间内频繁发生的攻击类型有较高的检测速度和精度。
其他文献
随着计算和通信技术在网络中的长足进展,各种普适的分布计算环境正在飞速发展,其中包括传感器网络、多代理系统和自治自动机系统等。在这些分布计算环境中,不仅计算任务可以
本研究以社会文化理论为框架,分析以书面反馈为中介的二语写作教学过程。研究显示:良好的写作是教师与学生互动的成果。教师在写作教学中要发挥调控作用,正确引导;学生要发挥
小波分析近年来发展迅速,在图形图像的压缩编码、图形滤波、图像的边缘检测、数字水印加密、遥感影像融合、地球物理勘探、医疗检测、化学检测、工程计算、控制理论、语音合
摘要:留学生教育是我国人才培养的重要组成部分,其质量的好坏关系到我国国际声誉与留学生的发展。根据长沙理工大学土木工程专业来华留学生桥梁工程课程英语教学实践,针对留学生的语言文化特点和学习思维习惯,从英文教材的选择、教学方法的实施、教学效果的考核等方面分析总结留学生桥梁工程教学存在的问题和解决对策,为土木工程专业留学生的课程教学提供借鉴。  关键词:留学生;桥梁工程;教学实践  中图分类号:G642
过度迷恋明星的曝光率,有一种传播效果叫适得其反。只从曝光度看,北京现代可能是2016北京车展最大的赢家。韩国人气偶像权志龙在媒体日首日为北京现代悦纳站台,至于场面之火
本文以统计理论为基础,研究两个方面的内容:(a)对有限混合模型的有关议题进行了较为系统的研究;(b)结合人脸识别问题,研究了二维主成分分析的非线性扩展。在统计模式识别中,
胎母输血综合征(fetomaternal hemorrhage,FMH)是指一定量胎儿血液通过破损的胎盘绒毛间隙进入母体血液循环,引起胎儿不同程度的失血以及母亲溶血性输血反应的临床征候群。该
公共图书馆作为提供信息服务和进行知识传播的重要机构,是城市公共资源的组成部分,具有重要的公益价值。图书馆参考咨询服务作为图书馆重要的业务活动,对于提高图书馆的服务效率
设计说明:边柜的整体外形灵感来源于岭南传统建筑屋檐外形,简洁而富有特色;亞字型纹样柜面,使边柜更富有文化气息.采用浅色木材作为主体材料,令具有历史的文化符号"年轻化",
通过CAN总线的技术特征及应用特点,对CAN的相关内容进行了阐述,分析了CAN总线有关器件及其在汽车网络通信系统中的实际应用情况。 Based on the technical characteristics