不确定性数据中的概率频繁项集挖掘算法的研究

来源 :复旦大学 | 被引量 : 0次 | 上传用户:corber
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
频繁模式的挖掘一直是数据挖掘中的重要研究领域之一。随着计算机软硬件的发展,传统中的确定性数据可能存在缺失、出现噪声值,从而产生大量不确定性数据,如传感器、卫星图像信息、医院病人的诊断数据等。由于存在不确定性数据,传统确定性数据中频繁模式挖掘算法并不适用。本文以不确定性数据的频繁模式的挖掘算法作为研究对象,总结了目前两种主要的不确定性模型,分别是基于期望支持度和基于概率分布的概率模式两种。而且在不确定性数据中,基于期望支持度的挖掘算法丢失了项集的概率分布特征,不能表达频繁模式估计的准确性,因此本文主要采用基于概率分布的频繁模式表示,在此基础上,提出了不确定性数据频繁模式的垂直挖掘算法。本文的主要研究成果有:(?)对目前典型的不确定性数据频繁模式挖掘算法进行研究和总结,归纳出不确定性数据中的频繁模式挖掘的算法的一般特点。(?)由于项集的支持度是不确定性的,使用期望支持度的频繁模式不能说明估计项集频繁的准确性,因而采用引入置信度的频繁模式模型;通过理论分析证明,该模型相较期望支持度的模型更能准确地估计频繁模式。(?)提出了一种基于扩展方法的不确定性数据概率频繁模式垂直挖掘算法UPC-Eclat.该算法对Tidset进行扩展,递归建立子集搜索树,通过深度优先遍历搜索树来挖掘概率频繁模式。并且利用扩展动态计算模式优化项集的频繁概率计算过程,从而挖掘出用户自定义置信度和最小支持度下的频繁模式。(?)通过针对三种不同的数据集Chess, Mushroom, T10I4D100K进行实验,分析了最小支持度和最小置信度对两种基于置信度的频繁模式挖掘算法PFIM算法和UPC-Eclat算法进行分析比较,通过实验证明,本文提出的算法UPC-Eclat算法相较于水平挖掘算法PFIM算法更加有效省时。
其他文献
针对个体脚型特征,对个性化鞋楦造型设计及皮鞋CAD系统进行了的应用性基础研究.分析和讨论了如何根据个体脚型设计和制造出符合个性化要求的鞋楦,提出了个性化皮鞋CAD设计模
研究的内容具体包括以下几个方面.首先对数据存储系统整体进行了描述.讨论数据存储系统的应用需求,阐述了组成数据存储系统的诸多物理部件和逻辑结构,及其相关技术的国内外研
  本文结合“三维场景真实感技术研究”和“交互式三维建模与物理仿真”课题。  本文提出一种基于双变量二次插值的多边形明暗处理方法,实现了三角面片模型的明暗处理。 
随着企业信息化的深入,企业应用集成(EAI, Enterprise Application Integration)越来越成为各个企业所关注的焦点,而Web服务已经成为企业应用集成的主要方式。Web服务能够在I
随着计算机网络技术的飞速发展,网络规模、用户数量的日益增加,现有的网络管理和维护已经越来越难以适应用户的要求。而网络故障产生的原因很多,现有网络的信息量巨大,从而使
不完全信息数据库与 SQL 语言的语义是数据库理论的两个重要研究方向,不仅具有重要的理论价值,而且还具有很高的应用价值。本文借助中介逻辑谓词演算系统 MFM,对不完全信息系
工作流技术是重要的协同应用支撑技术之一,它通过对业务过程进行建模、执行和管理来完成业务目标。工作流模型建立起来之后,模型正确性验证和工作流执行时的并发控制成为需要
对象管理组织OMG是独立于各厂商的非盈利性组织,其宗旨是要统一不同的商业产品和标准之间的数据交换及互操作性,从而改善各厂商的软件产品之间不兼容的情况。为此,OMG为分布
本文以2003年广东省关键领域重点突破项目:“互联网文化娱乐软件开发”为背景,在参与开发三维游戏引擎的过程中,研究了在三维游戏引擎中实现刚体运动模拟的若干理论与方法,重点研
随着互联网技术的迅速发展、互联网上信息量急剧增加,网络已成为人们获取信息的重要途径。用户渴望在膨胀的资源中快速检索出自己想要的信息的愿望,迫使传统搜索引擎向智能化、