【摘 要】
:
频繁模式挖掘是数据挖掘领域的经典课题。频繁模式挖掘在实际应用中的基本问题是频繁模式通常数量庞大,冗余严重。究其原因,主要是因为传统挖掘方法基于刚性的支持度-置信度
论文部分内容阅读
频繁模式挖掘是数据挖掘领域的经典课题。频繁模式挖掘在实际应用中的基本问题是频繁模式通常数量庞大,冗余严重。究其原因,主要是因为传统挖掘方法基于刚性的支持度-置信度阈值来区分模式,由于受到数据中随机噪声的影响,容易导致实际相同的模式因为细微差异而被挖掘系统认作了不同的模式。为此本文致力于研究利用析取空间的项集模式来设计频繁模式精简表示模型,以消除频繁模式挖掘结果集中存在的冗余。本文的主要研究工作如下:(1)针对析取空间中的析取模式,本文研究发现,析取模式集中仍然存在着模式冗余现象,因随机噪声造成的这一类冗余,具有局部和扰动量微小等特点。为此,本文引入析取模式的δ-邻域概念,以消除随机噪声造成的冗余,并以此为基础,提出一种新的频繁模式精简表示模型。分析了此模型的性质和频繁模式恢复的精度和算法策略等问题,并利用深度优先递归搜索方法,辅以启发性策略,设计了高效率的精简的析取模式集挖掘算法DCPM。实验结果表明,通过该模型得到的精简集,规模比传统析取闭合项集明显减少,并且恢复全体频繁项集的支持度错误也较小。(2)在δ-邻域划分过程中,本文研究发现,多组不同δ-邻域之间会存在重叠现象,而且这种重叠现象十分广泛,对于重叠现象处理不当,会导致支持度恢复误差加大,甚至在最终结果集中引入冗余。本文提出从中继节点、交叉节点和替代集析取支持度等三个方面,来解决δ-邻域划分的最优化问题,并据此对算法DCPM进行改造形成了新算法NDCPM。利用DCPM算法中使用的有效技术改造MEP形成了算法NFMEP。实验结果表明,NDCPM算法挖掘结果更精确,NFMEP具有较高的执行效率。
其他文献
<正>中等职业教育在全民长期追逐精英教育的背景下,从质量较好、规模较大走向低谷,现在又从低谷开始走向兴起、复苏。过去,中专毕业生都"吃皇粮"20世纪70年代,伴随高考恢复,
绿道具有的康体功效是促进居民健康的重要途径,是研究绿道使用水平影响因素的目标动力。分析国内外学者对绿道使用情况的研究,总结出影响绿道使用的因素主要为建成环境要素:
<正>选择题作为中考化学的一大类题型,占有相当多的分值。它考查的范围很广,可以是基本概念、基础知识、综合应用能力及创新能力,它对考生的理解能力、解题能力提出了更高层
教师专业成长呈现出阶段性特点,但在师资培育中忽视新手、熟手及专家等不同阶段教师成长需求的差异。以成长阶段讨论师资培育,发现各阶段专业发展的重心,并采取不同的培育方
<正>以对住房需求和住房供给进行分类控制,实现政策性和市场化分配相结合的双轨制房地产发展模式为特征的房地产发展体制改革(即"二次房改"),被人们看成是解决当前房地产问题
目的老年呼吸道感染患者的护理方法及效果。方法收集我院在2017年8月至2018年8月所收治的老年呼吸道感染患者进行研究分析,共计70例,采用随机原则均分成两组,分别为对照组和
从烟草钾素营养研究意义、土壤特性对烟草钾营养的影响、钾素在烟株内的分配与积累规律和提高烟叶含钾量的技术途径等方面综述了近年来中国烟草钾素营养研究的状况及进展,并提
为了开发土壤成分田间实时测定仪,在分析土壤养分实时测定需求的基础上,归纳了土壤主要成分测试项目及常规化学分析法、基于光电分色和电化学传感器测定法、土壤电导率间接测
<正> 柱上配电开关对提高配电可靠性、实现配电自动化起着非常重要的作用。我局在近两年进行的城网改造过程中,使用了大量的柱上配电开关,有SF_6开关、油绝缘真空开关、SF_6
针对轨道交通行业轮对尺寸检测手段落后、精度不高的问题,提出了一种使用TurboPMAC2+IPC集成的轮对测量系统,该系统利用激光位移传感器对轮对的多个参数实现高精密测量。主要