高效频繁项集发现方法与Apriori的改进

来源 :江苏科技大学 | 被引量 : 18次 | 上传用户:XIONGSHENG0
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的飞速发展,数据的产生和存储达到了空前繁荣的阶段。如何从海量的数据中提取潜在的有用信息,给传统的数据处理技术提出了严峻的考验,数据挖掘方法应运而生。在数据挖掘出现后,又围绕着如何提高信息的有效率,以及提高挖掘的效率又成为数据挖掘研究的核心。而关联规则挖掘作为数据挖掘的主要手段之一,如何提高关联规则挖掘的效率与规则的有效性也成为近些年来研究的热点之一。本文通过对Apriori关联规则挖掘算法的两个方面进行分析与研究,即频繁项集的产生与关联规则的生成,也就有两个主要方面可以去改进。在产生候选项集时会有大量的冗余项集尤其是在产生二项候选集时以及需要多次扫描数据库,这也是Apriori算法的主要瓶颈。其次是在产生关联规则时会有大量的冗余、无趣的规则,在客户的决策过程中带来迷惑甚至误导的信息。鉴于上述问题,该文在产生二项频繁项集时只需要扫描数据库一次,而且不需要去产生大量的二项候选项集,只需要对所有可能的二项组合进行统计,最后根据支持度阀值直接筛选出频繁二项集。在解决冗余关联规则时引入第三个变量——相关支持度,利用相关支持度与关联规则的两个性质来消除一定的冗余的关联规则。而因为引入相关支持度之后原先利用关联规则的性质减少的冗余规则又都要判断其相关支持度,鉴于此,本文同时又利用数学公式导出两个性质来提高关联规则生成的效率,并在第三章中给出了算法效率的实验对比。最后本文选取合适的支持度,置信度,相关支持度,利用高效的关联规则挖掘的算法对广东轻工职业技术学院网站的部分日志数据进行了关联规则挖掘。并针对挖掘的结果进行了细致的分析,最终提出了一些改进网站的意见。
其他文献
近年来,精准农业受到越来越多国家的关注,它是在一系列高新技术的基础上发展起来的一种新型现代农业;是信息时代和知识经济的产物;是“科技兴国”的体现。变量施肥是精准农业
在无线通信领域中,协作通信技术(Cooperative Communication)利用网络中闲置的天线作为中继,形成分布式虚拟天线阵列(Distributed Virtual Antenna Array)。利用中继在不同时
计算机辅助检测与诊断系统可以帮助医生提高乳腺癌的早期发现率和诊断准确率。目前,辅助检测与诊断系统在肿块检测上的主要问题是灵敏度较低而假阳性较高,且只提示病变区域而不
句法分析是自然语言处理领域的一个关键问题,如能将其有效解决,一方面,可对相应树库构建体系的正确性和完善性进行验证;另一方面,也可直接服务于各种上层应用,比如搜索引擎用
智能监控系统是计算机视觉领域的一个热点问题,是计算机视觉领域的主要研究内容之一,在军事、安全等领域得到了广泛的应用。运动目标检测与跟踪技术是智能视频监控系统的核心
非真实感绘制(Non-Photorealistic Rendering,NPR)相对与真实感是计算机中图形学中的一个重要分支,近年来逐渐受到人们的关注并成为计算机图形学中研究的一个重点。所取得的
企业级应用程序经历了几次系统架构方面的重要转变,在此过程中,客户端的表现能力有起有落。九十年代中期,互联网飞速发展,出现了浏览器/服务器应用程序,Web的广泛使用解决了C/S应用
随着互联网的普及和电子商务应用的广泛深入,人们在享受网上购物便捷性的同时也陷入了信息过载的困境,用户在大量的产品信息中难以找到自己需要的商品。因此,电子商务推荐系
伴随计算机网络技术的高速发展,互联网已经成为应用程序开发的默认平台。遗憾的是,传统Web应用程序对完成复杂应用方面却迟迟跟不上步伐。为提高用户体验的丰富性,出现了一种
近年来,随着社交网络的流行以及地理位置采集技术在移动设备上广泛使用,通过收集用户的移动轨迹数据(即空间数据集)实现对用户行为习惯的分析已成为热门研究。空间数据集遭到泄