海量数据挖掘算法的研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户：qy19871120wr

【摘要】

：

并行海量数据挖掘技术利用并行计算(Parallel Computing)技术,针对海量数据特点,研究数据挖掘的新理论和新方法.关联规则、分类、聚类、相似性搜索和时间序列模式是挖掘算法

【作者】

：

张兆功

【机构】

：

哈尔滨工业大学

【出处】

：

哈尔滨工业大学

【发表日期】

：

2003年期

【关键词】

：

数据挖掘挖掘算法并行挖掘算法海量数据数据挖掘系统

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

并行海量数据挖掘技术利用并行计算(Parallel Computing)技术,针对海量数据特点,研究数据挖掘的新理论和新方法.关联规则、分类、聚类、相似性搜索和时间序列模式是挖掘算法的研究核心.为此我们以抽样方法和并行技术为重点,研究了关联规则、相似性搜索、分类、聚类和时间序列模式的串行抽样挖掘算法和并行挖掘算法.研究工作的创新之处主要表现在如下五个方面:(1)针对已有关联规则算法存在多遍扫描数据库的缺点,我们提出了一个至多扫描数据库两遍的新抽样算法,还提出了相对支持度概念和叠加原理.(2)提出了用于相似性搜索的两个新的索引结构:rgh-tree和pgh-tree.(3)针对已有聚类算法出现的各种问题,该文提出了一个新的聚类模型和算法.(4)由于决策树分类模型建立过程的计算时间主要消耗在最优分割点的选取上,传统方法需要对全体数据的所有可能的分割点逐个计算,计算量很大.该文采用了两次抽样的方法,首先对数据集合进行抽样,选取一部分数据用于建立初步模型.其次对分割点进行抽样,可以有效的减小分割点选取的计算量.(5)提出了一个用于时间序列分析上的新的概念—波动率,它是一个相似变换下的不变量,它不同于传统的时间序列相似性度量—欧几里得距离.它基于波动率进行相似性比较,同人的直觉相一致,在4种相似性变换下该度量保持不变.提出了一个计算和标记这种不变量的方法,我们的实验结果表明基于波动率的时间序列相似性分析精度更高.该文利用抽样方法和并行计算技术对海量数据情况下的数据挖掘问题进行了探索,部分解决了海量数据情况下的数据挖掘问题.

其他文献

以XML为核心的Web应用的开发框架的研究

软件构件化是21世纪软件工业发展的大势趋,而工业化的软件复用方式已经从通用类库进化到了面向领域的应用框架.随着现在软件的复杂程度越来越高,也对应用开发框架提出了更多

学位

Web应用开发框架XML服务

红外行扫数字录放仪的视频输出和系统软件

该文根据行扫仪的使用需求和数字录放仪的技术特点,确定了录放仪的总体方案,包括:以嵌入式计算机为核心,以硬盘为磁记录介质,实时采集和存储图像数据,实时输出图像信号,对图

学位

视频输出红外录放仪嵌入式系统系统软件

入侵检测免疫细胞的有效性

随着网络的不断发展,网络安全也越来越受到关注,传统网络安全模型已经越来越难以保障网络的安全,这其中包含很多原因,主要是由于传统的网络安全模型存在一个致命的弱点--试图

学位

人工免疫机体免疫网络安全入侵检测演化计算

关联规则数据挖掘的研究及其在金融业的应用

随着数据库系统的广泛应用,在各个应用领域都存储了大量的数据,这些数据中包含了很多有用的信息,因此如何发现各种大型数据库中隐藏的、预先未知的信息,以辅助相关的应用显得

学位

数据挖掘关联规则个人信贷客户关系加权关联规则多最小支持度概率分布有趣性规则模板

中文多文档自动文摘技术研究

该文研究的重点是中文多文档自动文摘的几个关键技术:汉语句子相似度计算、局部主题的确定、文摘生成以及多文档自动文摘的评价技术等.句子相似度的计算在多文档文摘中有着非

学位

多文档自动文摘句子相似度计算局部主题确定文摘生成文摘评价

异构社交网络中的社区问答质量分析和预测

随着社交网络的流行，人们开始在社交网络上频繁发布和分享信息，产生了大量用户数据内容。其中有一类社交网站，称为社区问答网站。国外知名的如StackFlow，Quora等网站，国内知名的有

学位

社交网络社区问答微博特征回答质量预测准确度SQA-Ranking算法

UniCore-3处理器存储管理单元设计与优化

现代计算机系统普遍采用基于虚拟存储的存储管理方式，通常在处理器内部需要集成存储管理单元与操作系统配合实现高效虚拟存储。存储管理单元的核心功能是将程序访存的虚拟地址

学位

虚拟存储存储管理单元旁视变换缓冲器地址转换多核处理器电路结构

面向行业的移动平台研究与应用

随着移动通信技术的飞速发展和嵌入式设备、移动设备的迅速普及，移动应用作为一个新的计算机应用领域受到人们越来越多的重视。目前，国外面向行业的移动应用已经发展得比较完善

学位

面向行业移动平台分布式计算嵌入式计算移动计算

金融审计数据仓库模型的构作与设计

金融审计是国家审计的重要内容，随着金融行业信息化的程度不断加深与计算机技术的运用日臻成熟，计算机辅助审计已成为审计机构将来进行金融审计工作的必然方向和趋势。数据仓库

学位

金融审计数据仓库OLAP分析模型数据挖掘模型计算机辅助审计不良贷款审计

机载UMS分布容错计算机系统关键技术研究与实现

通用管理系统(UMS)是综合化飞机管理系统的重要组成部份,是全面提高战斗机的作战效能的关键技术之一;对于改善机电子系统的性能、减轻驾驶和地勤人员的劳动强度、提高飞行的

学位

通用管理系统容错同步异步故障恢复与重构

海量数据挖掘算法的研究

与本文相关的学术论文