含正负项目的FP-Growth算法及其在日志分析中的应用研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:francis123123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关联规则挖掘是数据挖掘中重要研究的方法之一,其目的是从大型数据库中发现有用的信息。人们利用数据挖掘技术从数据中获得了很多有用的信息,这些信息推动着人类科技的发展。但是,海量的数据是人们进行数据挖掘所面临的一大难题,如果没有高效率的挖掘算法,人们在进行数据挖掘时所耗费的时间将是巨大的。而且目前所研究的大多数数据挖掘都只是挖掘事务之间的正向关系,而往往忽略了事务间负关联关系的存在。但是在现实生活中的很多领域,单单对正关联规则进行挖掘是远远不够的,还需要考虑到所挖掘数据之间的负关联关系,从而提高关联规则的描述力。本文针对以上问题,对以下三点展开了研究:(1)研究了包含事务数据库中正项目和负项目的FP-Growth算法考虑到在引入负项目之后,就会使原有的数据量倍增,从而导致项集的数目过大,所构造的FP-tree的分支的长度也就会过长,FP-tree的空间占有率也会过大,挖掘效率也会随之降低。为解决这一问题,本文对FP-tree的构造方法进行了改进,即利用动态插入节点的方法构造FP-tree,而且将所有的指针倒转,从而生成一个新型的FP-tree,从而减低FP-tree的生成成本。本文还提出了一种最大频繁模式的挖掘算法—Max-IFPA算法,利用构造的新型FP-tree挖掘出所有的最大频繁项集。通过和其他算法的对比实验证明,本文所提出的挖掘算法在挖据频繁项集时比其他算法具有更高的效率。(2)研究了基于多重最小支持度的FP-Growth算法改进过高的设置单一支持度的值,可能会使对我们有用的信息因出现的频率低而被遗弃,也违背了我们引入负项目的初衷;而过低的设置单一支持度的值,则可能会使我们产生大量的无用的规则。所以为解决此问题,本文在新型FP-tree的基础上,引入了最小项目支持度的概念,提出了基于多重最小支持度的最大频繁模式挖掘算法MS_IFPA,通过对不同数据项提供不同的最小支持度数值的方法,可以使我们在有效避免生成大量无用规则的同时,成功挖掘出对我们有用的规则。(3)将改进的算法应用于取证系统的日志分析中首先在系统的客户端采集日志文件数据并提交到系统的服务器端,系统在服务器端首先用本文的算法对所提交的数据进行预处理,然后对预处理之后的数据进行证据分析、融合,最终生成取证报告以便用户查看。
其他文献
大学生心理档案的规范化建设对大学生心理健康教育具有重大意义。大学生心理档案建立的根本目的是了解学生的心理状态,把握大学生心理发展变化的规律性,更好指导高校心理健康
就山西省几种植物萎蔫病株进行了镰刀菌的初步分离与鉴定,分别采集了不同地区的5种作物萎蔫病植株,共分离到12株镰孢霉菌株,经形态学鉴定分别为尖孢镰刀菌(F.oxysporum)、半裸
今年年初全球展览业协会(UFI)与国际展览与项目协会(IAEE)共同推动设立“全球展览日”,用以突显展览业对经济发展的重要推动作用,来表达展览人的共同心愿。在全球展览日前夕和展览
期刊
糊料作为色浆的主要成分,对印制效果有很大的影响。大部分印花糊料是非牛顿流体,其流变性能难以用单一方法分析。目前,国内外主要研究糊料的静态流变性能。但是,作为高分子化合物
<正>近年来,随着政府对公共安全领域的投入和人们安全意识的提高,无论是政府还是公众对公共安全防范服务产品需求变得非常迫切,尤其是对智能视频安防监控新产品新技术的渴望
作业成本会计适应现代企业的制造环境而产生,弥补了传统成本会计在现代企业制造系统中的一些缺陷,在西方发达国家,已呈现出较好的发展,势头,对传统的成本会计理论、责任会计理论和
近年来有机发光二极管(OLED)及相应的显示产品以其广视角、广色域、自发光、响应快、驱动电压低、面板薄和可实现柔性显示等独特优势迅速在市场全面爆发。然而由于通过真空掩膜
播音主持批评是媒介批评的一个子系统,与媒介批评相关,但却有着自足的批评理念。播音主持学理性批评专指播音主持研究领域的专家学者从不同立场的学术视野出发,对活态现实和
爱因斯坦所说的"一切科学"中,合乎逻辑地包括自然科学和社会科学的各学科,其中也包括历史或历史学。在爱因斯坦看来,历史与科学既有共同之处,也各有自己的特点。根源于所从事
随着人们生活水平的提高和人口的老龄化,骨质疏松症得到了广泛的关注,牙齿种植技术也得到了广泛的应用,在骨质疏松症的诊断和牙齿种植过程中骨密度测量是至关重要的。骨密度