论文部分内容阅读
某分析师在某段时间一直跟踪一支股票。该股票一直在30元左右的范围内小幅震荡,高点36元是它的压力位。某天,该股票突破了该位置,达到40元。该分析师告诉客户,该支股票已经突破了压力位,可能继续上扬。于是,客户买进。
可以肯定,该分析师的结论完全基于标准的定量数据的分析。但他不知道的是,当天早些时间,已经有一则关于“这家公司将被另一家公司以每股60元的价格收购”的通告。由于该分析师没有监控和分析文本数据,例如新闻,于是他的建议误导了客户。
类似的事情近年来经常发生。
企业一直依赖于存储在关系型数据库中的结构化(可量化的)数据来分析其商业运作、竞争状况以及全面的业务运营环境。实际上,企业所依赖的仅仅是其所能获得信息的极少一部分,甚至还未达到20%,而这些未被分析到的信息却以非结构化(定性的)数据形式广泛存在。
可实现的BI圣杯
时至今日,许多企业已经意识到,如果有方法可以收集、集成、查询和分析那剩余的80%非结构化数据,决策支持将会得到极大的提升。但这个目标一直难以实现。企业迫切需要一种方法从不同格式的非结构化数据包括Word文档、PDF文件、E-mail消息、短信息、媒体文件、客户服务调查、呼叫中心的记录、PowerPoint Presentation、各种其他类型(非量化)的企业文档中梳理关键的业务信息。另外,收集和分析外部的非结构化数据如来自Web页面、博客、聊天室、及其他社交和新闻媒体等。遇到的挑战就是得寻求一种有效方式将这种非结构化数据和结构化数据进行集成,并将它们一起分析,发现关键的趋势和相关性。
文本分析技术恰恰能够破解这一难题。它是一种将文本数据进行转换,使它们适合于查询以及高级分析所拥有的、为我们所熟悉的功能。它应用语言与统计机制以抽取用于对文档、音频、视频和图像进行分类的概念和模式;它可将非结构化信息转换为适用传统分析机制应用的数据,揭示之前计算机无法处理的大量信息中的意义与关系。
前沿:文本分析及统一存储
业界已有的共识就是定量分析仅仅能够提供一定数量和特定类型的信息用于基本的商业决策。定量的(结构化)数据非常适合于为回答“什么”问题提供信息,但是定性的(非结构化)数据在回答“为什么”问题时却更有用。要了解全面、准确预测,企业对这两种类型的答案都需要。但一些公司仍然保持着独立的结构化数据分析系统和非结构化数据分析系统,这导致了成本高昂,集成延迟,无法综合分析数据,无法做出实时、全面、智慧的决策等问题。
理想的方式是将集成的结构化和非结构化数据存储到同一个地方——最好是一个可以管理多种数据类型以及支持所有关系型商业智能的标准报表、数据挖掘、预测分析和文本分析的优化的分析引擎。单一的存储为IT管理和业务用户带来明显的好处——能够以更短的时间获得一个关于企业的业务环境综合、关联的视图。
因此,需要将文本分析加入到企业的商务智能中,以消除目前让挖掘海量定性的数据变得困难和成本高昂的障碍。
文本分析可以理解为一种语义层的技术,来补充传统的商业智能。BI长期关注定量数据,而文本分析将BI报表、分析和可视化功能扩展到占80%的、以文本和其他非结构化形式存在的业务信息。它使得任何书面或口述的材料可以被分析,包括电子邮件和文本消息,Web页面、博客、论坛以及其他社交和新闻媒体,联系中心记录以及调研反馈,保修和保险索赔,企业报表和申请以及法律文档和科技文献。
系列实践证明,统一的文本和定量数据存储可以消除那些在文件系统中管理非结构数据的系统管理员进行逻辑设计的复杂性,也消除了一旦文件系统损坏或停机而带来的数据不可访问的风险。中心式的数据访问意味着更稳定和更安全的系统。
现在,技术已允许结构化和非结构化数据存储在统一的分析引擎中,基于该引擎, 涵盖全企业,找到相关的非结构化数据,并将它们从文件格式中抽取出来;对非结构化数据进行预处理并将它们和现有的结构化数据一同加载到数据库中;基于联合的数据存储执行所需的分析,发现趋势、机会、威胁、低效率,以及其他可以带来更好商业决策的洞察力。
数据量迅猛增长,竞争愈发激烈,监管更加严格……那些继续基于对商业环境仅仅20%的理解而运营的企业将发现自己的劣势正在不断扩大。领先的企业将部署领先的技术和高级分析机制,从来自另外80%的信息——不断增长的、传统上未被使用的非结构化数据——中获得洞察力、智能以及其他关键信息中得到更多好处。
案例
eBay的极限分析
霍娜
全球最大的电子商务平台eBay拥有全世界最大数据仓储系统。近年来,它的数据成长的脚步相当惊人:eBay现在每天有50PB的新增数据,使用者平均每天对5万种商品进行数百万次的网上查询。除此之外,eBay还有7,000多个商业用户和分析人员,为了分析,每8秒钟会产生1TB的数据量。这些加起来,eBay每天要处理的数据量高达100PB。多么惊人的数字!对eBay 来说并不只是数据量的增加,eBay分析平台高级总监Oliver Ratzesberger认为,近年来在分析数据领域最大的挑战就是要同时处理结构化与非结构化的数据。
eBay的非结构化数据主要是来自行为分析的数据以及对网站点击率的分析。Ratzesberger表示,这些资料都比过去还要复杂、多变。以追踪点击率为例,近年来大部分的网页都是动态网页,过去只要透过网址就能知道使用者正在看什么网页,但是现在一个网页上的内容变多了,而且每一秒都在变化,这对于分析使用者行为来说,难度也就更高。 Ratzesberger认为,分析点击率信息这一类半结构性和非结构性数据是eBay未来在数据管理方面的工作重点之一。
Ratzesberger介绍,在虚拟化以及结构和非结构化数据结合分析方面,早在四五年前,eBay就和Teradata公司合作建立了大规模平台——Singularity,将结构性数据和非结构性数据结合在一起。目前,这个平台上已经部署很多系統,且每一个系统的数据处理量都可以达到40PB。“作为传输工具,Hadoop能帮我们把自然语言和单一视频的处理做得很好。不熟悉SQL语言的人也可以通过Hadoop很好地利用Java语言进行工作。”
eBay大约有500多个不同的数据来源,包括普通交易数据、反馈信息数据、账户改动数据和点击流量数据等,它们所产生的数据会被放入不同的系统进行分析,帮eBay了解人们在网上会购买什么样的产品、通过怎样的方式寻找产品、怎样更容易地进行搜索和寻找。就是通过这样的行为数据分析,eBay在不断地优化其搜索和算法,不断改善网站功能和特性。
可以肯定,该分析师的结论完全基于标准的定量数据的分析。但他不知道的是,当天早些时间,已经有一则关于“这家公司将被另一家公司以每股60元的价格收购”的通告。由于该分析师没有监控和分析文本数据,例如新闻,于是他的建议误导了客户。
类似的事情近年来经常发生。
企业一直依赖于存储在关系型数据库中的结构化(可量化的)数据来分析其商业运作、竞争状况以及全面的业务运营环境。实际上,企业所依赖的仅仅是其所能获得信息的极少一部分,甚至还未达到20%,而这些未被分析到的信息却以非结构化(定性的)数据形式广泛存在。
可实现的BI圣杯
时至今日,许多企业已经意识到,如果有方法可以收集、集成、查询和分析那剩余的80%非结构化数据,决策支持将会得到极大的提升。但这个目标一直难以实现。企业迫切需要一种方法从不同格式的非结构化数据包括Word文档、PDF文件、E-mail消息、短信息、媒体文件、客户服务调查、呼叫中心的记录、PowerPoint Presentation、各种其他类型(非量化)的企业文档中梳理关键的业务信息。另外,收集和分析外部的非结构化数据如来自Web页面、博客、聊天室、及其他社交和新闻媒体等。遇到的挑战就是得寻求一种有效方式将这种非结构化数据和结构化数据进行集成,并将它们一起分析,发现关键的趋势和相关性。
文本分析技术恰恰能够破解这一难题。它是一种将文本数据进行转换,使它们适合于查询以及高级分析所拥有的、为我们所熟悉的功能。它应用语言与统计机制以抽取用于对文档、音频、视频和图像进行分类的概念和模式;它可将非结构化信息转换为适用传统分析机制应用的数据,揭示之前计算机无法处理的大量信息中的意义与关系。
前沿:文本分析及统一存储
业界已有的共识就是定量分析仅仅能够提供一定数量和特定类型的信息用于基本的商业决策。定量的(结构化)数据非常适合于为回答“什么”问题提供信息,但是定性的(非结构化)数据在回答“为什么”问题时却更有用。要了解全面、准确预测,企业对这两种类型的答案都需要。但一些公司仍然保持着独立的结构化数据分析系统和非结构化数据分析系统,这导致了成本高昂,集成延迟,无法综合分析数据,无法做出实时、全面、智慧的决策等问题。
理想的方式是将集成的结构化和非结构化数据存储到同一个地方——最好是一个可以管理多种数据类型以及支持所有关系型商业智能的标准报表、数据挖掘、预测分析和文本分析的优化的分析引擎。单一的存储为IT管理和业务用户带来明显的好处——能够以更短的时间获得一个关于企业的业务环境综合、关联的视图。
因此,需要将文本分析加入到企业的商务智能中,以消除目前让挖掘海量定性的数据变得困难和成本高昂的障碍。
文本分析可以理解为一种语义层的技术,来补充传统的商业智能。BI长期关注定量数据,而文本分析将BI报表、分析和可视化功能扩展到占80%的、以文本和其他非结构化形式存在的业务信息。它使得任何书面或口述的材料可以被分析,包括电子邮件和文本消息,Web页面、博客、论坛以及其他社交和新闻媒体,联系中心记录以及调研反馈,保修和保险索赔,企业报表和申请以及法律文档和科技文献。
系列实践证明,统一的文本和定量数据存储可以消除那些在文件系统中管理非结构数据的系统管理员进行逻辑设计的复杂性,也消除了一旦文件系统损坏或停机而带来的数据不可访问的风险。中心式的数据访问意味着更稳定和更安全的系统。
现在,技术已允许结构化和非结构化数据存储在统一的分析引擎中,基于该引擎, 涵盖全企业,找到相关的非结构化数据,并将它们从文件格式中抽取出来;对非结构化数据进行预处理并将它们和现有的结构化数据一同加载到数据库中;基于联合的数据存储执行所需的分析,发现趋势、机会、威胁、低效率,以及其他可以带来更好商业决策的洞察力。
数据量迅猛增长,竞争愈发激烈,监管更加严格……那些继续基于对商业环境仅仅20%的理解而运营的企业将发现自己的劣势正在不断扩大。领先的企业将部署领先的技术和高级分析机制,从来自另外80%的信息——不断增长的、传统上未被使用的非结构化数据——中获得洞察力、智能以及其他关键信息中得到更多好处。
案例
eBay的极限分析
霍娜
全球最大的电子商务平台eBay拥有全世界最大数据仓储系统。近年来,它的数据成长的脚步相当惊人:eBay现在每天有50PB的新增数据,使用者平均每天对5万种商品进行数百万次的网上查询。除此之外,eBay还有7,000多个商业用户和分析人员,为了分析,每8秒钟会产生1TB的数据量。这些加起来,eBay每天要处理的数据量高达100PB。多么惊人的数字!对eBay 来说并不只是数据量的增加,eBay分析平台高级总监Oliver Ratzesberger认为,近年来在分析数据领域最大的挑战就是要同时处理结构化与非结构化的数据。
eBay的非结构化数据主要是来自行为分析的数据以及对网站点击率的分析。Ratzesberger表示,这些资料都比过去还要复杂、多变。以追踪点击率为例,近年来大部分的网页都是动态网页,过去只要透过网址就能知道使用者正在看什么网页,但是现在一个网页上的内容变多了,而且每一秒都在变化,这对于分析使用者行为来说,难度也就更高。 Ratzesberger认为,分析点击率信息这一类半结构性和非结构性数据是eBay未来在数据管理方面的工作重点之一。
Ratzesberger介绍,在虚拟化以及结构和非结构化数据结合分析方面,早在四五年前,eBay就和Teradata公司合作建立了大规模平台——Singularity,将结构性数据和非结构性数据结合在一起。目前,这个平台上已经部署很多系統,且每一个系统的数据处理量都可以达到40PB。“作为传输工具,Hadoop能帮我们把自然语言和单一视频的处理做得很好。不熟悉SQL语言的人也可以通过Hadoop很好地利用Java语言进行工作。”
eBay大约有500多个不同的数据来源,包括普通交易数据、反馈信息数据、账户改动数据和点击流量数据等,它们所产生的数据会被放入不同的系统进行分析,帮eBay了解人们在网上会购买什么样的产品、通过怎样的方式寻找产品、怎样更容易地进行搜索和寻找。就是通过这样的行为数据分析,eBay在不断地优化其搜索和算法,不断改善网站功能和特性。