论文部分内容阅读
数据库中的知识发现是当前人工智能、数据库等学科中一门十分活跃的研究领域。数据挖掘是知识发现的一个重要步骤,其目的是从大量的、不完全的、有噪声的数据库中提取隐含的、人们事先不了解的但又有用的信息和知识。
关联规则挖掘作为数据挖掘的一个重要研究分支,用来挖掘数据库中数据项之间的潜在联系,具有广泛的应用背景。传统的关联规则挖掘算法在对大规模数据进行处理时,在低支持度下挖掘规则具有很高的时间复杂度和空间复杂度,并且挖掘结果中含有很多不能真正反映现实和满足用户需求的知识。因此,提高关联规则挖掘算法的效率问题一直是关联规则挖掘研究的重点,对挖掘出结果的验证和评价也成为不可缺少的环节。
随着人工免疫系统研究的日益成熟和在数据挖掘领域日益深入地应用,人们在实践中证明了人工免疫算法的优越性。人工免疫系统目前已经成为智能信息处理的一个热点研究内容,并已被广泛应用于机器学习、模式识别、知识发现、决策分析等领域。人工免疫思想在关联规则挖掘领域的应用也逐见成效。
本论文在详细介绍关联规则挖掘基本概念、传统算法和人工免疫系统、免疫算法的基础上,设计了一种新的关联规则挖掘算法,并考虑了对挖掘结果的评价。主要内容如下:
首先结合免疫算法思想和关联规则挖掘的特点,从新的角度看待频繁项的定义,设计了一种基于免疫算法的频繁项集挖掘算法,并在经典的大数据集上挖掘低支持度阈值下的频繁项集来验证算法的优越性。
接着综合考虑关联规则的客观和主观评价标准,并通过实验考查几种评价标准不同组合方式下时间上的效率问题。
最后,将新频繁项集挖掘算法和关联规则评价标准的最佳组合方式应用于网络成瘾调查问卷数据的分析,将数据进行预处理、关联规则挖掘、知识展示等处理过程,将挖掘出的有价值的、用户感兴趣的关联规则以简洁、明确、有效的形式展示。