可信关联规则挖掘算法研究

被引量 : 14次 | 上传用户:fudxing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关联规则挖掘是数据挖掘领域中一个重要研究内容。传统的关联规则挖掘算法大都基于支持度-置信度框架,利用支持度去除非频繁项集,利用置信度得到较为有效的关联规则。对支持度分布严重倾斜的数据集挖掘时,人们发现现有算法无法选择合适的支持度阈值。若将最小支持度设置较高,会遗漏支持度较低但令人感兴趣的规则,若设置较低,则挖掘结果会含有大量虚假规则,对用户没有实际意义。本论文针对上述问题,围绕如何得到可信有效的关联规则展开研究,创新点和主要工作如下:1.提出可信关联规则的概念可信关联规则中各个项目的支持度处于同一数量级,一个项目的出现很强的暗示了规则中其他项目也会出现,即规则中的各个项目在很大程度上是同现的。挖掘这种规则时,可以忽略支持度阈值,因此可同时得到频繁模式和非频繁模式。对于可信关联规则的兴趣度量,本文提出基于可信度的度量,并引入基于距离测度的度量及h-置信度等。实验结果表明,可信关联规则在很多数据集中都会存在,其可信程度远远大于传统的关联规则,可广泛应用到诸多领域。2.提出基于极大团挖掘可信关联规则的MaxCliqueMining算法MaxCliqueMining算法采用邻接矩阵产生2-项可信集,不需要对数据库进行多次扫描,就能利用极大团思想产生所有可信关联规则,提高时间性能。该算法可以挖掘基于可信度、提升度、余弦度量以及相关度度量的可信关联规则,对于不同度量,算法只在生成2-项可信集时有所区别,后续挖掘过程完全一致。实验结果表明,本算法在倾斜支持度分布的数据集中挖掘可信关联规则具有较高的效率和准确性。3.提出统一挖掘超团模式和极大超团模式的HHCP-growth算法超团模式和极大超团模式都是基于h-置信度度量的可信关联规则的特定类型。挖掘两种模式的标准算法是完全不同的。本文提出基于FP-tree的HHCP-growth算法统一了两种模式的挖掘。算法采用了递归挖掘思想,无需保存大量候选项集。除了应用传统的最小支持度剪枝策略外,还引入最大支持度剪枝、项目自剪枝以及剩余项目剪枝等策略,减少遍历和递归的次数。本文证明了剪枝策略的有效性和算法的正确性。实验结果表明,HHCP-growth算法与传统的超团模式挖掘算法和极大超团模式挖掘算法相比,具有更高的效率,尤其在大数据集或低支持度条件下更为显著。4.制作并发布可作为告警关联分析和研究使用的标准告警数据集采集了某省移动公司GPRS网络管理系统及某设备生产商模拟网管理系统部分时段的告警数据。这些真实数据经过预处理,去除噪声和敏感信息后,被转换为可进行直接挖掘的标准数据格式。告警数据集在网站上提供免费下载,可作为告警关联分析和研究使用的标准数据集。
其他文献
管理科学在铁路班组建设中的应用杨天平,周彤1问题的提出管理科学在铁路班组建设工作中应该怎样应用,效果如何,这是本文的诊断点。现仅举两例:1990年初,笔者曾随长沙铁路总公司有关部门
期刊
本文综合运用金相分析(OM)、X射线荧光光谱分析(XRF)、X射线衍射分析(XRD)、透射电镜(TEM)、扫描电镜(SEM)及电子背散射分析(EBSD)等分析测试手段,研究了Mg-Y-Nd合金的固溶时
<正>亚洲的发展需要更多地依赖生产率的提高而不是资本的积累。尽管刺激生产率提高的措施并不唯一,但金融深化可以提高资本在各部门之间分配的效率,并促进创新和技术转移。政
今年8月份,一项重大政策——《关于中关村国家自主创新示范区建设国家科技金融创新中心的意见》(以下简称:《意见》)的出台,标志着中关村国家自主创新示范区(简称:中关村)作
众多研究结果和实践经验表明,良好的激励机制和团队组织形式对于当代企业高绩效的取得具有重大意义。然而以往对于团队的研究往往聚焦于高层管理团队或是诸如项目团队等由企
当前,我国高等教育正面临着教育资源不足和人民需求日益增长的矛盾,国家已经有意将高等教育的增量部分由民办高等教育来实现。民办高等教育一直处于资金不足的危机中,捐赠是
随着电子商务产业快速发展,我国电商从业人数大幅增长,中职技工院校承担着为社会输送电商人才的重要职责。由于育人理念、师资队伍、课程设置、实践教学能力等诸多因素制约,
目的 探讨大黄对 2型糖尿病早期糖尿病肾病患者肾脏血流动力学指标肾小球滤过率 (GFR)和肾血浆流量(RPF)的影响。方法 选择符合要求的 2型糖尿病早期糖尿病肾病患者 5 2例
随着经济全球一体化的加速发展和市场需求的日益多样化,钢管制造企业之间的竞争日益激烈。钢管制造企业主要采用面向订单的多品种、小批量制造模式,制造全过程为半流程型,时
在收集国内林下经济研究相关文献的基础上,全面梳理了林下经济发展的必要性及意义、存在问题、发展模式、发展意愿及影响因素等内容。通过分析现有相关文献对已经取得的成果