论文部分内容阅读
如今,由于网络应用的飞速发展、多媒体数据的日益增长、视频音频等内容的丰富、更长时间段数据的存储需求等因素,企业需要进行管理的数据正在以指数级速度增长。分析人员发现,公司收集、存储和分析的有关客户、财务、产品和运营的数据,其增长率达 125% 之多。面对海量的信息,企业不得不为了保存大量在线数据以及数据膨胀而在存储硬件上大量投资,令总成本不断上升;同时,持续的数据库管理维护也令企业面临人力、时间等资源过度使用的挑战。数字爆炸的现实促使企业在迫切寻找降低成本提高性能的持续发展之路。
致力于信息管理和信息移动技术的企业级软件公司Sybase在第36届“世界环保日”来临之际,秉承绿色环保的理念,率先推出“绿色数据库”的全新概念。Sybase IQ坚决反对在数据仓库等分析型应用的开发中,对硬盘、CPU、内存、人力、时间等资源的过度使用,而提倡以更低的成本和资源获取更高的性能和绩效,保证企业生态的可持续发展。
这是软件行业内第一次提出绿色概念,它不仅彰显了Sybase以领先科技为企业营造健康成长环境的理念,还体现了革命性创新产品Sybase IQ低成本和高性能的卓越本质。
绿色数据指标SPoT
同绿色环保一样,在信息环境中,我们必须寻找更合适的方法去合理利用资源。只有在使用更少的物质资源(包括更少的硬件、CPU、内存等)、更少的人力资源、更少的时间资源,来完成一个系统的同时,依然保持系统的高性能和可扩展能力,才能给企业带来可持续发展的绿色效应。
相应的,在一个数据仓库解决方案中,客户也会非常关注:企业所采用的目标解决方案 (Resource of Target Solution) 使用多少资源,在多少信息源的基础上( Source Data) ,获得怎样的性能( Performance) 。
因此,作为衡量企业绿色信息环境的标准,Sybase提出绿色数据指标——SPoT:
SPoT=S*P/T,每单位资源所能处理的源数据及其相关性能指数。
(S代表源数据大小,P代表数据库性能指数,T代表目标数据库所使用的资源)
比如综合查询性能,我们可以在1TB的源数据下,使用同样的CPU、内存资源,通过数十条不同的查询来测试不同数据库所用的查询时间,查询时间越短,性能指数越高,P越大。
按照该公式,在P相同的情况下,S/T越大代表绿色指数越高。在S相同的情况下,P/T越高,代表绿色指数越高。一般而言,因用户在选用数据库产品时,都是在追求一定的性能要求,例如查询性能、加载性能等。因此,在比较不同数据库绿色指数时,我们通常看作用户需求的P是一致的。而S/T将有效地反映出数据库在被加载后节省资源的情况。对于当资源T中的服务器、CPU、内存等资源相同时,仅以数据库所需的存储空间代表资源,则S/T代表数据库的压缩比。
绿色数据库Sybase IQ
总体上,传统数据库的SPoT值均小于1, 而Sybase IQ有别于所有同类数据库产品(Oracle、DB2、SQL Server),SPoT值大于1。Sybase IQ 关系型数据库,专为数据仓库等分析型应用而设计,以众多革命性的创新技术,如列存储、数据压缩、丰富的索引、Multiplex(多丛架构)等等,为企业减少数据存储成本达3-10倍,提高查询速度10-100倍,缩短部署周期数倍,提供接近无限的可扩展能力。
如今,任何企业都面临着业务和IT投入的压力,系统的性能价格比,尤其是ROI(投资回报率)也越来越受重视。企业因为保存大量在线数据以及数据膨胀而需要在存储硬件上大量投资,虽然存储设备的成本在下降,但存储的总体成本却在不断增加,并且正在成为最大的一笔 IT 开支之一。例如2005年Wintercorp曾做过的全球十大数据仓库比较:从原始数据上看,Sybase IQ的最大实施者Nielsen Media Research的初始数据量是17.9TB,而Yahoo是17.0TB,Nielsen Media比Yahoo的原始数据还要多近一个TB。然而Yahoo的数据仓库大小约为100TB, Nielsen Media Research则只有17.6TB,在原始数据多一个TB的情况下,Nielsen Media的数据仓库显著缩小,而Yahoo的数据仓库却膨胀了大概6倍。有数据表明,每节省1TB的存储,可节省约30万元的成本。试问,对于一个数据应用规模较大的企业,在获得相同性能的情况下,是愿意花17TB的成本,还是100TB的成本呢?(据称,目前Yahoo的数据仓库容量已高达250TB,按照6倍的膨胀比例计算,约200TB的存储空间合计约6000万元是完全可以通过Sybase IQ节约下来的成本。)由此可见,在Sybase IQ独特的列式存储、数据压缩等技术的支持下,SPoT大于1,则表明ROI更高,恰恰实现了帮助企业利用有限的成本来达到更高系统性能的目的。截至目前,Sybase IQ已经拥有全球电信、金融、政府、零售、媒体、教育等行业的超过1000家客户,在中国市场更是连续两年保持着100%的增长。
那么,Sybase IQ是如何实现以上的绿色效应呢?我们从以下几个方面来了解其独到之处:
列存储——有别于传统的关系型数据库,Sybase IQ是按照数据表中的列来存储与访问数据的。基于列来读取数据,即使在数据不断膨胀的情况下,你也只须读出你想要了解的数据,避免了重复的全面扫描,显著提供查询速度,进而提升了性能指数P;同时,由于同一列中的所有数据域有相同的数据类型,因此,每一列都可以以更优化的效率和检索进行压缩,从而降低了占用的资源T。
数据压缩——正是由于数据按列存储,相邻的字段值具有相同的数据类型,所以压缩更容易,通常能得到大于50%的压缩。在海量数据下,随着数据的大幅压缩,所占用的空间等资源成本会显著减少。因此,更大的压缩比,加上大页面,使得Sybase IQ在获得优良查询性能的同时,减少了对存储空间的需求,因此占用的资源T也大大降低了。
丰富的索引——传统的关系型数据库引擎只能一对一地解决问题,在数据爆炸的今天,如此“大海捞针”似的查询会令反应速度非常迟缓。而Sybase IQ针对数据仓库应用有多种不同的索引技术,并且这些技术中的每一个都与数据仓库的查询问题相吻合,从而显著减少给定查询或更新的工作量,加快查询速度,自然带动性能P的提升。
Multiplex可扩展能力——Sybase IQ的Multiplex组件增加了在单一的Sybase IQ环境中支持多个SMP机器节点的功能,显著地减轻了进程与内存负担。因此,在信息飞速增长的商业社会,它允许数据仓库从基础开始扩展,从很小的规模扩展到非常巨大的规模,拥有卓越的可扩展能力,避免了数据爆炸带来的更新和不便。
总之,正是凭借以上引领未来的核心科技,Sybase IQ 在保证数据压缩的目标下,能够同时提高查询性能。因此,不论以S/T(即数据库压缩比)、P/T,还是从整体SPoT公式来看,Sybase IQ 都拥有更高的绿色数据指标,是“绿色数据库”的完美体现。
信息飞速膨胀的时代呼唤有效利用资源的绿色科技。绿色数据库Sybase IQ是对传统商业智能软件的挑战,引领了未来关系型数据库的发展方向,其低成本、高效能的绿色效应必将促进企业健康持久成长,营造和谐持续发展的绿色信息环境。
致力于信息管理和信息移动技术的企业级软件公司Sybase在第36届“世界环保日”来临之际,秉承绿色环保的理念,率先推出“绿色数据库”的全新概念。Sybase IQ坚决反对在数据仓库等分析型应用的开发中,对硬盘、CPU、内存、人力、时间等资源的过度使用,而提倡以更低的成本和资源获取更高的性能和绩效,保证企业生态的可持续发展。
这是软件行业内第一次提出绿色概念,它不仅彰显了Sybase以领先科技为企业营造健康成长环境的理念,还体现了革命性创新产品Sybase IQ低成本和高性能的卓越本质。
绿色数据指标SPoT
同绿色环保一样,在信息环境中,我们必须寻找更合适的方法去合理利用资源。只有在使用更少的物质资源(包括更少的硬件、CPU、内存等)、更少的人力资源、更少的时间资源,来完成一个系统的同时,依然保持系统的高性能和可扩展能力,才能给企业带来可持续发展的绿色效应。
相应的,在一个数据仓库解决方案中,客户也会非常关注:企业所采用的目标解决方案 (Resource of Target Solution) 使用多少资源,在多少信息源的基础上( Source Data) ,获得怎样的性能( Performance) 。
因此,作为衡量企业绿色信息环境的标准,Sybase提出绿色数据指标——SPoT:
SPoT=S*P/T,每单位资源所能处理的源数据及其相关性能指数。
(S代表源数据大小,P代表数据库性能指数,T代表目标数据库所使用的资源)
比如综合查询性能,我们可以在1TB的源数据下,使用同样的CPU、内存资源,通过数十条不同的查询来测试不同数据库所用的查询时间,查询时间越短,性能指数越高,P越大。
按照该公式,在P相同的情况下,S/T越大代表绿色指数越高。在S相同的情况下,P/T越高,代表绿色指数越高。一般而言,因用户在选用数据库产品时,都是在追求一定的性能要求,例如查询性能、加载性能等。因此,在比较不同数据库绿色指数时,我们通常看作用户需求的P是一致的。而S/T将有效地反映出数据库在被加载后节省资源的情况。对于当资源T中的服务器、CPU、内存等资源相同时,仅以数据库所需的存储空间代表资源,则S/T代表数据库的压缩比。
绿色数据库Sybase IQ
总体上,传统数据库的SPoT值均小于1, 而Sybase IQ有别于所有同类数据库产品(Oracle、DB2、SQL Server),SPoT值大于1。Sybase IQ 关系型数据库,专为数据仓库等分析型应用而设计,以众多革命性的创新技术,如列存储、数据压缩、丰富的索引、Multiplex(多丛架构)等等,为企业减少数据存储成本达3-10倍,提高查询速度10-100倍,缩短部署周期数倍,提供接近无限的可扩展能力。
如今,任何企业都面临着业务和IT投入的压力,系统的性能价格比,尤其是ROI(投资回报率)也越来越受重视。企业因为保存大量在线数据以及数据膨胀而需要在存储硬件上大量投资,虽然存储设备的成本在下降,但存储的总体成本却在不断增加,并且正在成为最大的一笔 IT 开支之一。例如2005年Wintercorp曾做过的全球十大数据仓库比较:从原始数据上看,Sybase IQ的最大实施者Nielsen Media Research的初始数据量是17.9TB,而Yahoo是17.0TB,Nielsen Media比Yahoo的原始数据还要多近一个TB。然而Yahoo的数据仓库大小约为100TB, Nielsen Media Research则只有17.6TB,在原始数据多一个TB的情况下,Nielsen Media的数据仓库显著缩小,而Yahoo的数据仓库却膨胀了大概6倍。有数据表明,每节省1TB的存储,可节省约30万元的成本。试问,对于一个数据应用规模较大的企业,在获得相同性能的情况下,是愿意花17TB的成本,还是100TB的成本呢?(据称,目前Yahoo的数据仓库容量已高达250TB,按照6倍的膨胀比例计算,约200TB的存储空间合计约6000万元是完全可以通过Sybase IQ节约下来的成本。)由此可见,在Sybase IQ独特的列式存储、数据压缩等技术的支持下,SPoT大于1,则表明ROI更高,恰恰实现了帮助企业利用有限的成本来达到更高系统性能的目的。截至目前,Sybase IQ已经拥有全球电信、金融、政府、零售、媒体、教育等行业的超过1000家客户,在中国市场更是连续两年保持着100%的增长。
那么,Sybase IQ是如何实现以上的绿色效应呢?我们从以下几个方面来了解其独到之处:
列存储——有别于传统的关系型数据库,Sybase IQ是按照数据表中的列来存储与访问数据的。基于列来读取数据,即使在数据不断膨胀的情况下,你也只须读出你想要了解的数据,避免了重复的全面扫描,显著提供查询速度,进而提升了性能指数P;同时,由于同一列中的所有数据域有相同的数据类型,因此,每一列都可以以更优化的效率和检索进行压缩,从而降低了占用的资源T。
数据压缩——正是由于数据按列存储,相邻的字段值具有相同的数据类型,所以压缩更容易,通常能得到大于50%的压缩。在海量数据下,随着数据的大幅压缩,所占用的空间等资源成本会显著减少。因此,更大的压缩比,加上大页面,使得Sybase IQ在获得优良查询性能的同时,减少了对存储空间的需求,因此占用的资源T也大大降低了。
丰富的索引——传统的关系型数据库引擎只能一对一地解决问题,在数据爆炸的今天,如此“大海捞针”似的查询会令反应速度非常迟缓。而Sybase IQ针对数据仓库应用有多种不同的索引技术,并且这些技术中的每一个都与数据仓库的查询问题相吻合,从而显著减少给定查询或更新的工作量,加快查询速度,自然带动性能P的提升。
Multiplex可扩展能力——Sybase IQ的Multiplex组件增加了在单一的Sybase IQ环境中支持多个SMP机器节点的功能,显著地减轻了进程与内存负担。因此,在信息飞速增长的商业社会,它允许数据仓库从基础开始扩展,从很小的规模扩展到非常巨大的规模,拥有卓越的可扩展能力,避免了数据爆炸带来的更新和不便。
总之,正是凭借以上引领未来的核心科技,Sybase IQ 在保证数据压缩的目标下,能够同时提高查询性能。因此,不论以S/T(即数据库压缩比)、P/T,还是从整体SPoT公式来看,Sybase IQ 都拥有更高的绿色数据指标,是“绿色数据库”的完美体现。
信息飞速膨胀的时代呼唤有效利用资源的绿色科技。绿色数据库Sybase IQ是对传统商业智能软件的挑战,引领了未来关系型数据库的发展方向,其低成本、高效能的绿色效应必将促进企业健康持久成长,营造和谐持续发展的绿色信息环境。