基于压缩数据的数据挖掘算法的研究

来源 :黑龙江大学 | 被引量 : 0次 | 上传用户:xiyouyou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据压缩技术可以提高海量数据的存储效率,改善数据库整体性能。数据挖掘则是为了满足人们对数据中所蕴涵的信息和知识的充分理解和应用而发展起来的一门新兴技术。近年来,人们在数据挖掘领域做了大量研究,但是对基于压缩数据的数据挖掘技术的研究还相当少,因此研究适用于压缩数据的数据挖掘算法具有重要的理论价值和实际意义。本文主要研究基于压缩数据的关联规则挖掘、分类挖掘和聚类挖掘算法。首先,提出了数据库压缩算法H_ItCompress,该算法充分考虑初始代表元组集的选择,并且采用一个压缩数据元组对应多个代表元组的策略,获得了比同类算法更好的压缩效果。其次,提出了基于压缩数据的关联规则挖掘算法C_ SPARMing和分类挖掘算法CMSA_CBA。这两个算法可应用于经过H_ItCompress等基于代表元组集的一类压缩算法压缩后的数据库。算法直接在压缩数据上进行挖掘操作,具有执行效率高和较好的可伸缩性。再次,提出了基于压缩数据的聚类挖掘算法CCMD_P,本算法对压缩的多维数据集合进行聚类挖掘,适用于所有映射完全的数据压缩方法。由于算法直接对压缩数据聚类,并且结合了划分聚类和层次聚类的优点,不但可以得到非球型的簇,而且具有较高的效率和较好的可伸缩性。最后,本文基于以上算法,实现了一个基于压缩数据的数据挖掘原型系统。
其他文献
一、课程标准对物理学史的要求(一)力学中有关物理学史的课程标准.1.通过史实,初步了解近代实验科学产生的背景,认识实验对物理学发展的推动作用.例1了解亚里士多德关于力与
随着计算机软硬件的发展,瘦客户计算模式的网络计算机得到了广泛的应用。网络计算机以其高性能、高可靠性、管理成本低、升级压力小等众多优点,得到各大厂商的青睐,广泛应用于医
去年蛟河等地大豆单产比历年偏高,一般0.1公顷达250~300公斤以上。7月份严重干旱以为会引起大量落花落荚势必减产,但秋后却见到较好收成。总结起来,有两点主要原因: 1.茬口优
一、营造物理问题情境,激发学生参与积极性原始物理问题,指生活中客观存在的,体现物理规律的现象和事实.其最大的特点是能够原版重现真实的物理情景,易于被学生感知,从而获得
北美殖民地时期是美国的高等教育从欧洲特别是英国进行移植和创建的时期,本文立足于殖民地时期美国创建高等院校的实践,从创建动因、组织形式、管理体制、教育目的和培养目标
功能正确性是集成电路设计的最基本要求。功能验证是检验集成电路功能正确性的方法,是集成电路设计中十分重要的一个环节。随着集成电路的规模日益增大,功能验证面临着日益严峻
软件成本估算作为软件项目可行性分析、预算、计划以及控制的基础,是软件工程中的一个重要研究领域。自上世纪60年代以来,尽管软件成本估算一直受到研究者的持续关注,但在现实环
本文对构件运行支撑平台PKUAS中持久化框架的设计和实现进行了研究。文章从持久化框架的四个关键特性出发,在分析现有的持久化技术的基础上,设计一个系统化的持久化方案,并且在P
笔者查阅高中阶段的各类物理考试和竞赛试题发现,目前高中物理试题考察的角度已经不是简单的物理定律和理论知识,而是学生的实际应用能力、逻辑思维能力和思变意识.极限法和