论文部分内容阅读
网格技术是一种新兴技术,它将高速互联网、高性能计算机、大型数据库、传感器、远程设备等融为一体,为人们提供更多的资源、功能和交互性,能够使人们透明地使用计算、存储等资源.计算网格是一种分布式计算基础设施,在动态跨组织域的虚拟组织内实现协同的资源共享和问题求解.数据网格是一种分布式数据管理体系结构,为分布在网格中的远端资源提供了协同的管理机制,它是随着网络技术以及计算网格技术的发展而产生的一种新技术.数据网格中除了计算资源外,还包括各种类型的数据库、文件系统等数据资源,这些数据资源常常存储在不同地点,不同格式的数据载体中.数据网格则能够协同地对这些海量数据进行管理.数据库在数据网格中扮演着十分重要的角色.该文主要研究网格环境下各种海量数据库操作算法.在各种数据库操作中,连接操作是经常用到的也是最复杂的操作,该文对于参加连接的两个关系首先利用关系缩减算法进行预处理,然后采用流水线并行技术将数据传输到网格所提供的多个执行结点上按照块归并算法进行操作,得到连接结果.这样既可以减少网络通信开销,又可以增加I/O和CPU并行,从而降低响应时间.对于集合并、交、差操作以及关系的投影、选择和消除重复操作,该文的算法不同于传统的算法,传统算法首先对关系进行排序操作,然后再对有序的新关系进行各种操作.该文所描述的集合并、交、差操作算法主要思想是构造一个函数,选取一个关系具有代表性的属性字段为自变量,把它们的值通过该函数映射到整数集合上,然后对于另一个关系的每一个元组,通过同一个函数映射为一个整数值,将两个事业集合中的整数值进行比较,根据比较的结果,就可以完成集合的并、交、差操作.对于消除重复操作和投影操作,则申请一块内存空间用来保存函数的映射值,通过把下一个元组的映射值和内存中的整数值进行比较,就可以完成消除重复操作和投影操作.理论和实验结果表明,该文所研究的网格环境下海量数据库操作算法在最小化网络通信开销和最大化I/O和CPU并行方面具有很好的性能.