关联规则挖掘的可继承性研究

来源 :南开大学 | 被引量 : 0次 | 上传用户:yigeyongbao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘技术是数据库和人工智能领域研究的热点课题,用于发现潜藏在大量数据中的有用知识。随着数据库规模的不断增长,数据挖掘方法面对的数据对象越来越大且在不断变化中,使用传统的数据挖掘方法很难处理。而数据挖掘过程本身是一个反复交互式过程,数据变化或挖掘参数改变前后的挖掘结果存在重复性,因此通过继承以往挖掘结果可以加快挖掘进程。本文主要研究数据挖掘中关联规则知识的继承性挖掘。 关联规则挖掘是数据挖掘研究中的一个重要的研究内容,用于发现大量数据中项集之间有趣的关联或相关联系。目前,在数据挖掘研究中,对关联规则挖掘的研究开展得比较深入。本文详细介绍了关联规则的基本概念和基本理论,并针对关联规则挖掘的特征分析其继承性挖掘的特点。通过研究发现直接继承数据挖掘的结果存在一定困难,因此文中提出了基于中间挖掘结果的继承性挖掘方法。通过继承中间结果可以直接得到改变后的最终挖掘结果,无需要访问原始数据。 关联规则的继承包括挖掘参数变化和数据改变两种情况下的继承,文中对两种继承分别展开研究。对参数改变问题,文中主要针对最小支持度阈值参数改变,提出了基于中间挖掘结果BP树的挖掘方法BP IUA。通过只挖掘支持度阈值在[α,β]范围内的频繁模式,BP IUA方法大大缩小了继承挖掘时频繁模式搜索空间,提高了挖掘效率。 对数据改变问题,本文研究新数据加入时的继承性挖掘,以往研究也称之为数据增量式关联规则挖掘。本文结合两种中间挖掘结果SFP树和ItemBitmap,提出新的数据库投影挖掘算法Bitmap Projection。利用两种结构的可归并性,脱离原始数据库,对更新后的数据进行挖掘。 最后,本文实现了一个关联规则继承性挖掘试验系统,该系统中包括基于FP Growth算法的非继承性挖掘模块,基于BP IUA算法的参数改变时继承性挖掘模块和基于Bitmap Projection算法的数据增量时继承性挖掘模块。实验表明本文提出的两种算法在处理继承问题时是高效可行的。
其他文献
为了解决网格环境的动态性和不确定性所带来的安全问题,本文提出了一种新的信任模型来处理网格环境中实体之间的信任关系,该模型对域内信任关系和域间信任关系分别采取不同的
汇水盆地在地球化学、地质勘测等领域的研究中占有重要地位。在地球化学勘探中,经常要用汇水盆地来圈定和研究区域化探异常;在选择水库坝址、市政建设时,也需要考虑汇水盆地
本文从模拟及混合信号电路的内建自测试方法入手,着重研究了伪随机测试技术及基于电流注入的测试方法,并在此基础上将两种方法结合起来,提出了一种基于伪随机电流注入的模拟及混
无线射频识别技术(RFID: Radio Frequency Identification)是一种基于无线射频信号进行通信的技术,属于非接触式自动识别技术范畴。随着通信技术的发展以及标签成本的降低,RFID优
本论文的主要工作包括:1.介绍了目前协议一致性测试的方法、框架、开发过程和常用技术。2.深入分析了IPsec协议体系的特点和执行机制,设计了IPsec协议一致性测试的测试用例。3.
食管癌与贲门癌的研究和普查工作,经历了几十年的发展,积累了一定数量的普查数据,如何从这些看似杂乱无序然而又具有潜在致癌性病理特征中发现高危因素,从而指导普查随访工作
  本文提出的统一漏洞描述语言GVML利用XML对安全漏洞进行统一格式的描述。GVML针对不同类别漏洞构造不同的XMLSchema数据类型,利用XML在数据结构描述方面的灵活性,实现对不
测试是所有工程学科的基本组成单元,是软件开发的重要部分。有数据表明,随着各种支持设计与编程的自动化工具的快速发展,软件测试的工作量和成本在软件开发总工作量和总成本中占
随着互联网技术以及基于图片分享应用的日新月异发展,人们想要在网络中寻找自己感兴趣的图像已经变得越来越困难,传统的基于文本的图像检索系统已很难满足人们精确检索的需求。
面对知识经济时代的到来,企业迫切需要建立企业产品的知识系统,以应对产品的研发周期、创新、质量、服务、成本、环保等方面的国际化竞争。企业产品知识库要求具有可共享性、