论文部分内容阅读
针对现有数据库向大数据迁移的背景,Apache推出了Sqoop作为关系数据库向大数据迁移的主要工具。Sqoop简单地将数据表切分并随机存储到不同的节点上。针对Hadoop的这种存储方式带来的关系查询的低效率问题,设计了一种关联度感知的数据导入预处理方法。将关联度较高的表尽量存储在相邻的虚拟机节点,以降低关联数据查询带来的网络传输时延,提高系统的性能。对比实验表明,将关联性较强的数据表存放在相同或相邻节点上,可以成倍提高数据查询的性能。