最大频繁项集和频繁基项集挖掘算法研究

来源 :河南大学 | 被引量 : 0次 | 上传用户:renyuh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是计算机科学的一个领域,目的是通过分析快速增长的商业、科学和工程数据来获取知识和其他利益,这个领域正在迅猛增长和发展。关联规则的挖掘是数据挖掘课题中的一个重要分支,它被用来描述事务数据库中属性间存在的潜在关系,近年来已经成为数据挖掘中一个相当活跃的领域。频繁项集挖掘是关联规则挖掘中的最重要的任务。本文对频繁项集的一种紧凑表示——最大频繁项集挖掘和如何在不丢失规则信息基础上减少关联规则生成数量问题进行研究。研究的主要内容包括以下几个方面:1.对有限个有限链直积下集极大元挖掘算法——Boundary算法进行了深入研究,它是一个深度优先算法,可以用在最大频繁项集这类具有位置格下集性质挖掘问题中。2.提出了一种用位置向量精确表示项目集的深度优先算法GMPV来挖掘最大频繁项集,算法中使用布尔矩阵方法来进行事务数据库映射,在频繁项集生成过程中通过超集存在检测和基于超集支持度计算等方法提高算法效率,通过实验验证了GMPV算法的有效性。3.在分析频繁基项集的定义和性质的基础上提出了频繁基项集挖掘的剪枝策略,设计了频繁基项集的挖掘算法,它可以用来进行极大布尔关联规则生成,并且根据极大布尔关联规则的性质简化了基于频繁闭项集和频繁基项集的极大布尔关联规则的生成算法。
其他文献
程序调试是软件开发过程中最关键的环节之一,调试的开销将直接影响到软件的成本和软件公司的收益。对于程序员来说,调试也是一个非常单调乏味的工作。因此,程序的自动化调试方法
本文是针对计算机辅助几何设计与制造(CAGD/CAM)中的曲线曲面造型问题,运用融合的思想研究了广义圆弧曲线曲面造型研究及其应用。其内容包括:基于融合的样条曲线造型方法概述
随着“互联网+”时代的来临,互联网规模日益壮大,相应底层网络结构也日趋复杂。用户网络的安全性以及稳定性成为当今社会关注的热门话题,而如何解决互联网的持续可靠运行业已
随着计算机无线网络技术的迅速发展,无线局域网(WLAN)不断提高的传输能力和高效的移动能力已成为通信领域的一个重要发展产业之一,被人们越来越关注,并广泛应用于各个领域。  
P2P (Peer-to-Peer)对等网络已经成为Internet中最重要的应用系统之一。然而,P2P具有的开放、匿名以及松耦合等特性,使得网络系统的安全面临着巨大的挑战,由此导致不可靠的服
无线局域网(WLAN)因其移动性、灵活性和经济性的特点,目前已得到广泛的发展。随着无线局域网的用户越来越广泛,其安全性的不足也渐渐凸显出来,成为制约其发展的一大要素。目前的
计算机断层扫描成像技术是医学成像领域的常用方法,心脏断层图像可视化是医学图像分析中的热点研究问题,旨在提供更加直观的人体心脏的三维信息。论文针对左心室形态和断层数
进化算法是一类通过模拟自然界中物种进化过程与机制来求解优化与搜索问题的一类自适应、自组织、自学习的人工智能技术。该算法基于这样的基本认识:“从简单到复杂、从低级到
近年来Web Services作为一种新技术广受关注。Web Services中的接口定义语言WSDL和内容传输格式SOAP已经成为W3C的草案和建议标准。然而,在实际应用中,单个Web服务通常无法满
随着网络和计算机上各种结构化数据的迅速发展,需要访问关系数据库查询信息的用户数量急剧上涨。然而传统的查询方法需要用户知道SQL查询语句和数据库模式;人们希望能够在关系