海量数据挖掘算法的研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:qy19871120wr
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
并行海量数据挖掘技术利用并行计算(Parallel Computing)技术,针对海量数据特点,研究数据挖掘的新理论和新方法.关联规则、分类、聚类、相似性搜索和时间序列模式是挖掘算法的研究核心.为此我们以抽样方法和并行技术为重点,研究了关联规则、相似性搜索、分类、聚类和时间序列模式的串行抽样挖掘算法和并行挖掘算法.研究工作的创新之处主要表现在如下五个方面:(1)针对已有关联规则算法存在多遍扫描数据库的缺点,我们提出了一个至多扫描数据库两遍的新抽样算法,还提出了相对支持度概念和叠加原理.(2)提出了用于相似性搜索的两个新的索引结构:rgh-tree和pgh-tree.(3)针对已有聚类算法出现的各种问题,该文提出了一个新的聚类模型和算法.(4)由于决策树分类模型建立过程的计算时间主要消耗在最优分割点的选取上,传统方法需要对全体数据的所有可能的分割点逐个计算,计算量很大.该文采用了两次抽样的方法,首先对数据集合进行抽样,选取一部分数据用于建立初步模型.其次对分割点进行抽样,可以有效的减小分割点选取的计算量.(5)提出了一个用于时间序列分析上的新的概念—波动率,它是一个相似变换下的不变量,它不同于传统的时间序列相似性度量—欧几里得距离.它基于波动率进行相似性比较,同人的直觉相一致,在4种相似性变换下该度量保持不变.提出了一个计算和标记这种不变量的方法,我们的实验结果表明基于波动率的时间序列相似性分析精度更高.该文利用抽样方法和并行计算技术对海量数据情况下的数据挖掘问题进行了探索,部分解决了海量数据情况下的数据挖掘问题.
其他文献
软件构件化是21世纪软件工业发展的大势趋,而工业化的软件复用方式已经从通用类库进化到了面向领域的应用框架.随着现在软件的复杂程度越来越高,也对应用开发框架提出了更多
该文根据行扫仪的使用需求和数字录放仪的技术特点,确定了录放仪的总体方案,包括:以嵌入式计算机为核心,以硬盘为磁记录介质,实时采集和存储图像数据,实时输出图像信号,对图
随着网络的不断发展,网络安全也越来越受到关注,传统网络安全模型已经越来越难以保障网络的安全,这其中包含很多原因,主要是由于传统的网络安全模型存在一个致命的弱点--试图
随着数据库系统的广泛应用,在各个应用领域都存储了大量的数据,这些数据中包含了很多有用的信息,因此如何发现各种大型数据库中隐藏的、预先未知的信息,以辅助相关的应用显得
该文研究的重点是中文多文档自动文摘的几个关键技术:汉语句子相似度计算、局部主题的确定、文摘生成以及多文档自动文摘的评价技术等.句子相似度的计算在多文档文摘中有着非
随着社交网络的流行,人们开始在社交网络上频繁发布和分享信息,产生了大量用户数据内容。其中有一类社交网站,称为社区问答网站。国外知名的如StackFlow,Quora等网站,国内知名的有
现代计算机系统普遍采用基于虚拟存储的存储管理方式,通常在处理器内部需要集成存储管理单元与操作系统配合实现高效虚拟存储。存储管理单元的核心功能是将程序访存的虚拟地址
随着移动通信技术的飞速发展和嵌入式设备、移动设备的迅速普及,移动应用作为一个新的计算机应用领域受到人们越来越多的重视。目前,国外面向行业的移动应用已经发展得比较完善
金融审计是国家审计的重要内容,随着金融行业信息化的程度不断加深与计算机技术的运用日臻成熟,计算机辅助审计已成为审计机构将来进行金融审计工作的必然方向和趋势。数据仓库
通用管理系统(UMS)是综合化飞机管理系统的重要组成部份,是全面提高战斗机的作战效能的关键技术之一;对于改善机电子系统的性能、减轻驾驶和地勤人员的劳动强度、提高飞行的