论文部分内容阅读
从处理到分析 :雅虎TAO之大数据进化
雅虎公司总部位于加利福尼亚,其搜索引擎、门户网站、新闻推送等网站每月独立访问者超过700万人。 为帮助广告客户更好地分析消费者相关的数据并成功地吸引客户,雅虎构建了定位、分析和优化(简称TAO)解决方案。作为一个功能强大、可扩展的广告分析工具,TAO基于雅虎网站,通过Right Media Exchange为成千上万在雅虎网站上投放广告的客户提供报表。
TAO平台的一个组成部分是开源软件框架Apache Hadoop,Hadoop曾是公司广告分析中大数据管理的主要工具。每天Hadoop处理超过3.5亿次的广告显示,以每小时进行刷新。TAO的源集群每个季度处理着4640亿行的数据。 尽管如此,该公司依然需要寻求新的、性能更高的、能够与Hadoop协同工作的商业智能解决方案,从大数据当中提取更多更有意义的分析信息,快速地对客户需求做出响应。
后来,雅虎利用微软SQL Server 2008 R2企业版数据管理软件,创建了一个新的BI解决方案。雅虎增强了其TAO基础架构,现在能够从一个Hadoop集群当中抽取数据并加载到一个第三方的数据库当中,并最终把数据加载到一个SQL Server 2008 R2分析服务的多维数据集当中。多维数据集支持来自客户端,如Tableau Desktop业务分析软件、内部自定义的应用程序等工具的连接。员工可以使用这一软件来创建交互式的数据仪表板并实现热点分析。微软已经开发出了针对Apache Hadoop的SQL Server连接器,实现在Hadoop和SQL Server 2008 R2之间的高效数据传输。目前,对于雅虎TAO用户而言,从Tableau Desktop客户端提交的查询结果返回的平均时间为6秒,而从公司定制的优化的应用程序提交的查询结果返回的平均时间为2秒。
“在电子商务顾客网上行为分析、智能交通摄像头数据的提取分析、基于天气交通的物流优化等方面,大数据有着非常现实的需求。”近日,微软(中国)SQL Server高级产品市场经理郝雪莹到中国计算机报社就大数据做培训交流,介绍了微软眼中的大数据。
大数据≠Hadoop
不论大数据的特征到底是3V还是4V,因为有了互联网,有了社交化,有了云……企业的运营环境正发生巨大的改变。企业许多业务都需要捕获数量空前的数据,这些数据中包括大量的结构化和非结构化数据,为企业带来收益的同时,也给企业的数据收集、存储、处理提出了严峻的挑战,郝雪莹说。
在无需承担构建复杂的分布式存储和计算集群的情况下,企业需要有效处理结构化和非结构化数据,以有效方式将内部和外部的数据及服务结合,从包括社交媒体在内的更多来源中挖掘、分析数据,并及时做出决策,并以用户熟悉的方式进行分析和展现。
郝雪莹介绍,不能将大数据与Hadoop完全划等号。它只是实现大数据数据管理的一种工具,可以使用普通机器实现分布式处理复杂计算和数据,真正把数据用起来,还需要很多其它工具和平台的支持。
在微软看来,大数据不是一种具体产品,而需要从数据全生命周期角度考虑, 它包含数据管理、数据丰富和数据洞察三个层面。数据管理,即如何获取、存储和保护数据;数据丰富,微软在Windows Azure的数据集市上为用户准备了丰富的选择,将第三方解决方案提供商、服务提供商或者是模块提供商和最终的商业用户的数据和应用联合在一起;数据洞察力,即通过分析、呈现与决策工具,获得洞察力,产生价值。微软现有的商业智能(BI)平台与协同、呈现工具的无缝结合,可以将大数据更好的可视化。
管理、丰富、洞察大数据
在数据管理层面,微软在Windows Server 和 Windows Azure上提供基于云或者内部服务的Hadoop服务——HDInsight,它构建于Hortonworks Data Platform之上,通过与System Center集成,HDInsight简化了Hadoop的管理,并支持IT部门在同一面板上管理Hadoop集群、SQL Server数据库和应用程序。微软还通过Active Directory使IT部门能够将同样一致性安全策略用于包括Hadoop集群在内的所有IT资产。
“对于企业传统环境,SQL Server完全可以满足企业对关系型关键业务系统的管理需求,非关系型数据可由Hadoop集群来承担,对于企业自建Hadoop 集群,HDInsight on Windows Server可以满足这一需求。对于云环境,我们有HDInsight on Windows Azure, 结合SQL Server Parallel Data Warehouse(PDW),客户可以访问获取任何规模的任何类型数据。此外PDW 中的PolyBase沿用标准的SQL查询语句,可以实现就像查询关系型数据库一样跨Hadoop环境和数据仓库环境进行查询。另外对于实时的流数据,微软SQL Server中的StreamInsight可以快速处理。”郝雪莹细致地讲解道。
在数据丰富这个层面,微软在Windows Azure上搭建数据集市,让数据的拥有者,也就是第三方解决方案提供商、服务提供商或者最终用户把自己的数据发布到数据集市上,让用户可以通过微软发布的一些非常简单可用的API或者工具,通过付费或者免费方式,把这些数据整合到他的应用环境中来支持应用。
美国某汽车销售公司对各类汽车历年全国销售情况分析时发现,来自于数据集市的国际原油价格以及美国经济指标对汽车种类销量的影响非常明显。这说明,完成一项应用分析不只需要客户自己的数据,而需要更多参考数据,开放、共享的数据集市非常重要,微软正和更多的合作伙致力提供更多更完备的数据集市应用,现在可以看到的包括畅捷通、ESRI等。
“近日,微软研究院专家David Rothschild非常靠谱地预测了第85届奥斯卡金像奖奖项归属,这也是一个大数据非常典型的应用,他在建模分析时采用了由社交媒体Twitter产生的用户数据,结果也可以算是民心所向。”郝雪莹说,微软提供了全面而且丰富的BI工具,为数据的整理与展现提供丰富的工具,客户可以使用熟悉的工具如Excel、Sharepoint Server、PowerPivot和Power View等以各种形式分析并展现来自于大数据平台的各种类型的数据,包括非结构化数据。
“值得强调的是,企业需不需要大数据要看实际需求。微软为客户使用大数据提供包括管理、丰富、洞察全面的端到端平台, 客户也可以利用已有的和熟悉的产品和技术,如 SQL Server、Office等,使公司在处理新业务时能充分利用原有IT投资。”郝雪莹总结道。
雅虎公司总部位于加利福尼亚,其搜索引擎、门户网站、新闻推送等网站每月独立访问者超过700万人。 为帮助广告客户更好地分析消费者相关的数据并成功地吸引客户,雅虎构建了定位、分析和优化(简称TAO)解决方案。作为一个功能强大、可扩展的广告分析工具,TAO基于雅虎网站,通过Right Media Exchange为成千上万在雅虎网站上投放广告的客户提供报表。
TAO平台的一个组成部分是开源软件框架Apache Hadoop,Hadoop曾是公司广告分析中大数据管理的主要工具。每天Hadoop处理超过3.5亿次的广告显示,以每小时进行刷新。TAO的源集群每个季度处理着4640亿行的数据。 尽管如此,该公司依然需要寻求新的、性能更高的、能够与Hadoop协同工作的商业智能解决方案,从大数据当中提取更多更有意义的分析信息,快速地对客户需求做出响应。
后来,雅虎利用微软SQL Server 2008 R2企业版数据管理软件,创建了一个新的BI解决方案。雅虎增强了其TAO基础架构,现在能够从一个Hadoop集群当中抽取数据并加载到一个第三方的数据库当中,并最终把数据加载到一个SQL Server 2008 R2分析服务的多维数据集当中。多维数据集支持来自客户端,如Tableau Desktop业务分析软件、内部自定义的应用程序等工具的连接。员工可以使用这一软件来创建交互式的数据仪表板并实现热点分析。微软已经开发出了针对Apache Hadoop的SQL Server连接器,实现在Hadoop和SQL Server 2008 R2之间的高效数据传输。目前,对于雅虎TAO用户而言,从Tableau Desktop客户端提交的查询结果返回的平均时间为6秒,而从公司定制的优化的应用程序提交的查询结果返回的平均时间为2秒。
“在电子商务顾客网上行为分析、智能交通摄像头数据的提取分析、基于天气交通的物流优化等方面,大数据有着非常现实的需求。”近日,微软(中国)SQL Server高级产品市场经理郝雪莹到中国计算机报社就大数据做培训交流,介绍了微软眼中的大数据。
大数据≠Hadoop
不论大数据的特征到底是3V还是4V,因为有了互联网,有了社交化,有了云……企业的运营环境正发生巨大的改变。企业许多业务都需要捕获数量空前的数据,这些数据中包括大量的结构化和非结构化数据,为企业带来收益的同时,也给企业的数据收集、存储、处理提出了严峻的挑战,郝雪莹说。
在无需承担构建复杂的分布式存储和计算集群的情况下,企业需要有效处理结构化和非结构化数据,以有效方式将内部和外部的数据及服务结合,从包括社交媒体在内的更多来源中挖掘、分析数据,并及时做出决策,并以用户熟悉的方式进行分析和展现。
郝雪莹介绍,不能将大数据与Hadoop完全划等号。它只是实现大数据数据管理的一种工具,可以使用普通机器实现分布式处理复杂计算和数据,真正把数据用起来,还需要很多其它工具和平台的支持。
在微软看来,大数据不是一种具体产品,而需要从数据全生命周期角度考虑, 它包含数据管理、数据丰富和数据洞察三个层面。数据管理,即如何获取、存储和保护数据;数据丰富,微软在Windows Azure的数据集市上为用户准备了丰富的选择,将第三方解决方案提供商、服务提供商或者是模块提供商和最终的商业用户的数据和应用联合在一起;数据洞察力,即通过分析、呈现与决策工具,获得洞察力,产生价值。微软现有的商业智能(BI)平台与协同、呈现工具的无缝结合,可以将大数据更好的可视化。
管理、丰富、洞察大数据
在数据管理层面,微软在Windows Server 和 Windows Azure上提供基于云或者内部服务的Hadoop服务——HDInsight,它构建于Hortonworks Data Platform之上,通过与System Center集成,HDInsight简化了Hadoop的管理,并支持IT部门在同一面板上管理Hadoop集群、SQL Server数据库和应用程序。微软还通过Active Directory使IT部门能够将同样一致性安全策略用于包括Hadoop集群在内的所有IT资产。
“对于企业传统环境,SQL Server完全可以满足企业对关系型关键业务系统的管理需求,非关系型数据可由Hadoop集群来承担,对于企业自建Hadoop 集群,HDInsight on Windows Server可以满足这一需求。对于云环境,我们有HDInsight on Windows Azure, 结合SQL Server Parallel Data Warehouse(PDW),客户可以访问获取任何规模的任何类型数据。此外PDW 中的PolyBase沿用标准的SQL查询语句,可以实现就像查询关系型数据库一样跨Hadoop环境和数据仓库环境进行查询。另外对于实时的流数据,微软SQL Server中的StreamInsight可以快速处理。”郝雪莹细致地讲解道。
在数据丰富这个层面,微软在Windows Azure上搭建数据集市,让数据的拥有者,也就是第三方解决方案提供商、服务提供商或者最终用户把自己的数据发布到数据集市上,让用户可以通过微软发布的一些非常简单可用的API或者工具,通过付费或者免费方式,把这些数据整合到他的应用环境中来支持应用。
美国某汽车销售公司对各类汽车历年全国销售情况分析时发现,来自于数据集市的国际原油价格以及美国经济指标对汽车种类销量的影响非常明显。这说明,完成一项应用分析不只需要客户自己的数据,而需要更多参考数据,开放、共享的数据集市非常重要,微软正和更多的合作伙致力提供更多更完备的数据集市应用,现在可以看到的包括畅捷通、ESRI等。
“近日,微软研究院专家David Rothschild非常靠谱地预测了第85届奥斯卡金像奖奖项归属,这也是一个大数据非常典型的应用,他在建模分析时采用了由社交媒体Twitter产生的用户数据,结果也可以算是民心所向。”郝雪莹说,微软提供了全面而且丰富的BI工具,为数据的整理与展现提供丰富的工具,客户可以使用熟悉的工具如Excel、Sharepoint Server、PowerPivot和Power View等以各种形式分析并展现来自于大数据平台的各种类型的数据,包括非结构化数据。
“值得强调的是,企业需不需要大数据要看实际需求。微软为客户使用大数据提供包括管理、丰富、洞察全面的端到端平台, 客户也可以利用已有的和熟悉的产品和技术,如 SQL Server、Office等,使公司在处理新业务时能充分利用原有IT投资。”郝雪莹总结道。