数据挖掘算法分析及其并行模式研究

来源 :电子科技大学 | 被引量 : 20次 | 上传用户:dd398622409xiewenjin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘(DM)就是从大型数据集中抽取知识,其目的是发现深藏在一般数据之中的有用模式。本文介绍了DM的任务和方法,总结了DM的研究现状,指出关联规则发现和复杂数据挖掘是DM领域的研究热点。由于可利用的数据规模太大以及其多维的本征,使得对开发高效的、可扩展的并行算法的需求日益增强。然而,设计这样的算法是很具挑战性的。数据挖掘的一个重要方面是关联规则的挖掘。挖掘关联规则的算法大致有两类:一类是基于Apriori的,另一类无需产生候选集,而前者在进行频繁项目集计数时需要产生候选集。本文在深入研究现有算法的基础上,对其中具有较好效率和可扩展性的并行算法——IDD和HD算法,引入近似算法,有效地解决了算法中一个非常重要的问题:候选项目集在各个处理器节点之间的划分问题,从而尽可能使得各节点负载平衡,最终达到提高算法效率的目的。文中给出了两种近似算法及其性能证明,其一是在线算法,其二为离线算法,并对改进算法进行了复杂性分析。对于无需产生候选集的算法。本文分析了高效的FP-growth算法在共享存储体系结构下,并行建立频繁模式树和并行挖掘频繁项目集的实现方法,指出了算法存在由于任务分配不均而导致处理器之间负载不均衡的缺陷。基于此,本文提出了一种动态负载平衡机制,实验数据表明:采用新调度策略的并行算法,其效率有明显的提高。序列模式发现在DM领域的地位越来越重要。以基因分析为例,其中许多重要的知识发现任务需要对DNA和蛋白质序列进行分析。这类任务中最耗时的操作是计算序列数据库中所有子序列(称为序列模式)的发生频度。发现序列模式的算法主要有三类。其中基于投影树的频繁模式发现算法在性能上明显优于其它算法,但仍然需要大量的计算时间。于是我们基于投影树算法,给出了其数据并行模式(DPF)和任务并行模式(TPF),接着进行了算法的复杂性分析。同时,理论推导表明:DPF具有一定的可扩展性,TPF具有较好的可扩展性。实验数据揭示:这些算法都能获得较好的加速比,而且任务并行模式具有更好的性能。 <WP=6>针对图像数据预处理中的数据压缩和特征提取两个重点,介绍一种基于连续Hopfield神经网络的非数值并行算法应用于图像数据挖掘的聚类预处理过程。在实现数据聚类的同时,达到对图像矢量量化压缩的目的。而矢量量化压缩的过程,实际上又可以把最终得到的码书看成是提取一幅图像的特征向量(矢量)组的过程。我们的工作重点在于在对图像数据进行数据挖掘之前,先对之进行预处理,通过数据压缩,并把压缩过程和图像的特征提取联系起来,达到简化图像表示的目的,从而为下一步的处理(多媒体数据挖掘处理)提供支持。
其他文献
目的:从桑枝中分离纯化出桑枝多糖,并研究其组成及初步结构。方法:桑枝经水提醇沉,脱蛋白、DEAE-纤维素柱和SephadexG-100柱层析,得RMPS1和RMPS2二个多糖组分,采用TLC、GC、HPL
摘要:学生自我管理能力的培养,是当今社会、时代对学校培养人才的要求,更是学生自身发展的需要。对身心正在发生巨大变化的青春叛逆期初中学生来说,其培养的难度更大、意义显
期刊
文章从路面设计、路面施工、养护管理及其他环节,结合笔者的工程实践,分析了沥青路面早期破坏的原因。
计算机视觉的基本任务之一是从摄像机获取的二维图像信息出发来计算三维空间中物体的几何信息,由此来重建或识别物体,并进一步指导机器认知现实世界。在上述过程中,摄像机标
本文参考自然计算方法的思路,借鉴了博弈理论,模拟人类社会中的经济系统,通过对经济系统中人的行为和相互作用建立模型来构造出一个多主体系统,并使得系统在整个演化过程中呈现出
独立分量分析是信号处理技术的新发展,它作为盲信号分离的一种有效方法而受到广泛的关注。独立分量分析算法通过计算数据的高阶统计信息,可以从观测信号中估计出相互统计独立的
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
期刊
在新课改实施之后,我国小学教育得到了更多发展机会,而英语阅读教学主要是通过阅读让学生获得更多自主学习能力,提升其学习素养。本文根据以往工作经验,对小学英语课外阅读教
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield