面向数据挖掘工作流的快速数据检索技术

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:langjitianya198411
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
面对海量的数据,数据挖掘成为当前研究的热点。在海量数据集上进行数据挖掘,数据挖掘系统的性能成为其应用的主要瓶颈,作为数据密集型应用系统,数据检索是数据挖掘系统中最普遍的操作,也是各个数据挖掘系统性能的主要瓶颈所在。所以如何在数据挖掘系统中对海量数据进行高效管理、快速检索成为高性能数据挖掘系统亟待解决的问题。  本文首先通过对数据挖掘工作流中普遍应用的算法的数据访问模式进行了深入的分析,归纳总结出数据挖掘算法中普遍存在的数据访问模式,以此为依据进行了研究工作。  首先,针对数据挖掘工作流中数据的静态特性和访问的随机性,本文设计了pB+Tree(persistent B+Tree)数据存储结构,该存储结构对数据批量构建索引,构建索引速度快,提高了数据存储的效率,改善了缓存利用率,能够提高数据挖掘应用中数据检索的速度。  其次,针对数据挖掘工作流中的普遍存在的计数查询操作,本文提出了AD-Index(All Dimension Index)辅助数据检索结构,该结构能够高效的完成对数据集的计数查询操作,减少了数据挖掘算法中对数据集的扫描次数,提高了数据挖掘工作流的运行效率。  此外,为进一步提高数据检索的效率,本文针对两种数据结构分别设计了缓存和预取算法,取得了良好的效果。为了验证算法的有效性,本文对两种数据存储结构分别进行了模拟对比试验,试验证明pB+Tree的存储检索效率明显高于同类存储结构,AD-Index对数据挖掘的算法的加速效果也非常明显。  基于以上的研究成果,本文设计并实现了一个面向数据挖掘系统的统一数据管理原型系统,包括了数据存储,缓存系统,内存管理、元数据管理等模块,为数据挖掘系统的设计提供了一个基础模块。
其他文献
传统的呼叫中心主要针对电话用户进行服务,随着实际生活中语音网从传统单一向开放、互连的一体化网络的转变,传统呼叫中心已不能满足日益多样化的用户需要。本文使用软交换关
CCTV7上榜企业,山东卫视、《大众投资》、《现代营销·经营版信息版》、《创富指南》等媒体报道,客户满意合作对象……枣庄英才教育,圆您财富梦。英才教育让孩子轻松上大学,
信息物理系统(Cyber-Physical System,CPS)被定义为提供计算、网络和物理过程的集成的系统。CPS领域已被确定为研究的一个关键领域,预计CPS将在未来系统的设计和开发中发挥重要作
在过去的几十年里,在线多媒体学术课件的应用取得了巨大增加,这些教育资源潜在地改变着人们的学习方式,而且随着文本检索技术和语音识别技术的日益成熟,如何更有效地在这些多
科学发展观实现了中国共产党在发展理论上的一次新飞跃,地方政府的发展也必须以科学发展观为统领,不断深化行政管理体制改革,转变政府职能,加快构建有利于科学发展的体制和机
随着无线自组网(MANET)应用的发展,传统的路由策略已经不能满足日益丰富的网络服务,尤其是在应对网络拓扑变化等不利因素时,传统路由协议更存在很多弊端。自适应策略逐渐得到
智能家居是物联网的热门领域之一,具有数量庞大及资源意义广泛的智能终端。由传感器产生的大量数据的网络传输和归类整理,以及终端资源意义的不断扩展都成为了智能家居的现有问
1.二手房的房龄大都比较长,如果通风、采光不好,室内空气中会有病菌漂浮,房屋的墙壁上也会有病菌粘附,结核等病菌在一定条件下可以存活很长时间,如不进行彻底消毒,住进来的
通过对会计教育环境的变化、高等会计教育目标、会计学科体系、教学活动实施、实验教学和实践环节、会计诚信等几个方面的问题分析,指出影响我国高等会计教育发展的首要症结
非结构化P2P (Peer-to-Peer)网络以其可靠性高、维护性好等特点在资源信息共享领域得到了广泛的应用,但网络中节点在对底层物理网络所知甚少的情况下任意选择逻辑邻居节点以