来吧,把它们结合起来分析

来源 :中国计算机报 | 被引量 : 0次 | 上传用户:tcjzy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  某分析师在某段时间一直跟踪一支股票。该股票一直在30元左右的范围内小幅震荡,高点36元是它的压力位。某天,该股票突破了该位置,达到40元。该分析师告诉客户,该支股票已经突破了压力位,可能继续上扬。于是,客户买进。
  可以肯定,该分析师的结论完全基于标准的定量数据的分析。但他不知道的是,当天早些时间,已经有一则关于“这家公司将被另一家公司以每股60元的价格收购”的通告。由于该分析师没有监控和分析文本数据,例如新闻,于是他的建议误导了客户。
  类似的事情近年来经常发生。
  企业一直依赖于存储在关系型数据库中的结构化(可量化的)数据来分析其商业运作、竞争状况以及全面的业务运营环境。实际上,企业所依赖的仅仅是其所能获得信息的极少一部分,甚至还未达到20%,而这些未被分析到的信息却以非结构化(定性的)数据形式广泛存在。
  
  可实现的BI圣杯
  
  时至今日,许多企业已经意识到,如果有方法可以收集、集成、查询和分析那剩余的80%非结构化数据,决策支持将会得到极大的提升。但这个目标一直难以实现。企业迫切需要一种方法从不同格式的非结构化数据包括Word文档、PDF文件、E-mail消息、短信息、媒体文件、客户服务调查、呼叫中心的记录、PowerPoint Presentation、各种其他类型(非量化)的企业文档中梳理关键的业务信息。另外,收集和分析外部的非结构化数据如来自Web页面、博客、聊天室、及其他社交和新闻媒体等。遇到的挑战就是得寻求一种有效方式将这种非结构化数据和结构化数据进行集成,并将它们一起分析,发现关键的趋势和相关性。
  文本分析技术恰恰能够破解这一难题。它是一种将文本数据进行转换,使它们适合于查询以及高级分析所拥有的、为我们所熟悉的功能。它应用语言与统计机制以抽取用于对文档、音频、视频和图像进行分类的概念和模式;它可将非结构化信息转换为适用传统分析机制应用的数据,揭示之前计算机无法处理的大量信息中的意义与关系。
  
  前沿:文本分析及统一存储
  
  业界已有的共识就是定量分析仅仅能够提供一定数量和特定类型的信息用于基本的商业决策。定量的(结构化)数据非常适合于为回答“什么”问题提供信息,但是定性的(非结构化)数据在回答“为什么”问题时却更有用。要了解全面、准确预测,企业对这两种类型的答案都需要。但一些公司仍然保持着独立的结构化数据分析系统和非结构化数据分析系统,这导致了成本高昂,集成延迟,无法综合分析数据,无法做出实时、全面、智慧的决策等问题。
  理想的方式是将集成的结构化和非结构化数据存储到同一个地方——最好是一个可以管理多种数据类型以及支持所有关系型商业智能的标准报表、数据挖掘、预测分析和文本分析的优化的分析引擎。单一的存储为IT管理和业务用户带来明显的好处——能够以更短的时间获得一个关于企业的业务环境综合、关联的视图。
  因此,需要将文本分析加入到企业的商务智能中,以消除目前让挖掘海量定性的数据变得困难和成本高昂的障碍。
  文本分析可以理解为一种语义层的技术,来补充传统的商业智能。BI长期关注定量数据,而文本分析将BI报表、分析和可视化功能扩展到占80%的、以文本和其他非结构化形式存在的业务信息。它使得任何书面或口述的材料可以被分析,包括电子邮件和文本消息,Web页面、博客、论坛以及其他社交和新闻媒体,联系中心记录以及调研反馈,保修和保险索赔,企业报表和申请以及法律文档和科技文献。
  系列实践证明,统一的文本和定量数据存储可以消除那些在文件系统中管理非结构数据的系统管理员进行逻辑设计的复杂性,也消除了一旦文件系统损坏或停机而带来的数据不可访问的风险。中心式的数据访问意味着更稳定和更安全的系统。
  现在,技术已允许结构化和非结构化数据存储在统一的分析引擎中,基于该引擎, 涵盖全企业,找到相关的非结构化数据,并将它们从文件格式中抽取出来;对非结构化数据进行预处理并将它们和现有的结构化数据一同加载到数据库中;基于联合的数据存储执行所需的分析,发现趋势、机会、威胁、低效率,以及其他可以带来更好商业决策的洞察力。
  数据量迅猛增长,竞争愈发激烈,监管更加严格……那些继续基于对商业环境仅仅20%的理解而运营的企业将发现自己的劣势正在不断扩大。领先的企业将部署领先的技术和高级分析机制,从来自另外80%的信息——不断增长的、传统上未被使用的非结构化数据——中获得洞察力、智能以及其他关键信息中得到更多好处。
  
  案例
  eBay的极限分析
  霍娜
  
  全球最大的电子商务平台eBay拥有全世界最大数据仓储系统。近年来,它的数据成长的脚步相当惊人:eBay现在每天有50PB的新增数据,使用者平均每天对5万种商品进行数百万次的网上查询。除此之外,eBay还有7,000多个商业用户和分析人员,为了分析,每8秒钟会产生1TB的数据量。这些加起来,eBay每天要处理的数据量高达100PB。多么惊人的数字!对eBay 来说并不只是数据量的增加,eBay分析平台高级总监Oliver Ratzesberger认为,近年来在分析数据领域最大的挑战就是要同时处理结构化与非结构化的数据。
  eBay的非结构化数据主要是来自行为分析的数据以及对网站点击率的分析。Ratzesberger表示,这些资料都比过去还要复杂、多变。以追踪点击率为例,近年来大部分的网页都是动态网页,过去只要透过网址就能知道使用者正在看什么网页,但是现在一个网页上的内容变多了,而且每一秒都在变化,这对于分析使用者行为来说,难度也就更高。 Ratzesberger认为,分析点击率信息这一类半结构性和非结构性数据是eBay未来在数据管理方面的工作重点之一。
  Ratzesberger介绍,在虚拟化以及结构和非结构化数据结合分析方面,早在四五年前,eBay就和Teradata公司合作建立了大规模平台——Singularity,将结构性数据和非结构性数据结合在一起。目前,这个平台上已经部署很多系統,且每一个系统的数据处理量都可以达到40PB。“作为传输工具,Hadoop能帮我们把自然语言和单一视频的处理做得很好。不熟悉SQL语言的人也可以通过Hadoop很好地利用Java语言进行工作。”
  eBay大约有500多个不同的数据来源,包括普通交易数据、反馈信息数据、账户改动数据和点击流量数据等,它们所产生的数据会被放入不同的系统进行分析,帮eBay了解人们在网上会购买什么样的产品、通过怎样的方式寻找产品、怎样更容易地进行搜索和寻找。就是通过这样的行为数据分析,eBay在不断地优化其搜索和算法,不断改善网站功能和特性。
其他文献
在以创新为魂的信息通信技术市场上,那种单纯以份额为诉求的合并,即便是侥幸获批,企业也难以为继。  ——本报记者 马文方    在企业发展史上,AT
Wind River(风河)、McAfee(迈克菲)、Intel(英特尔),当这三个单词组合在一起,关注嵌入式领域的人士应当可以意识到,一套针对嵌入式及移动设备的完整的安全防护解决方案将会诞生。在移动设备数量激增的今天,这样的方案正是人们所需要的。    嵌入式面临安全挑战    网上设备相关应用日趋普遍,其数量也随之骤增,数量和种类都远远超过PC。根据McAfee公司内部预估数据,到2020年,
2012年中国国际工业博览会(以下简称工博会)于11月6—10日在上海新国际博览中心隆重举行。尽管全球金融危机和经济衰退的阴霾尚未减弱,但本届工博会仍然吸引了众多国家的参展商纷至沓来,规模再创新高。而设在信息与通信技术应用展馆内显要位置的上海浦东软件园(以下简称浦软)展台格外吸引参观者的眼球。  自从2009年首次组团参展工博会以来,浦软已经连续四届亮相工博会,累计50家园区中小企业免费登上工博会
“到2014年,中国智慧城市的IT投入预计可达到1700多亿元的规模。而未来5年,各个地方政府的IT投入预计为8000亿元以上。”在11月29日举办的2012年中国智慧城市高峰论坛(下称论坛)上,北京赛迪世纪信息工程顾问有限公司(赛迪顾问股份有限公司的全资子公司,下称赛迪信息)副总裁柳絮做出了如上预测。  当IT厂商、电信运营商、各级政府越来越言必称智慧城市时,很多人开始关心智慧城市的评价标准和发
平衡是一门学问。在众多看似存在悖论但又不得不做出选择,尽可能少付出代价的时候,这样的能力就尤为难能可贵。在与企业生产力密切相关的客户端领域,博锐平台技术一直在革新中寻找与“平衡”有关的完美答案。    到现在还有不少人记得第一代英特尔博锐技术发布时的那场经典话剧,孙小空、白骨静……一干企业白领演绎出一场活脱脱源自日常工作的烦恼与喜乐。那一次,让观众在笑声中明白,原来技术并非都是冷冰冰的,它如同无形
消费主义正在席卷全球的IT部门,BYOD、移动办公迅速普及。Gartner指出,智能手机和平板电脑占2012年全部移动设备出货量的70%。到2016年,66%的移动员工将拥有智能手机,其中56%基于安卓系统。  这背后透露出的安全威胁不可小觑。12月13日,由亚洲网络信息安全组织SyScan主办,奇虎360公司承办,微软、Juniper、网康等高科技企业共同协办的安全技术峰会360SyScan在北
一些具有划时代意义的存储新技术往往都是先用于高端存储产品之上,得到用户的广泛认可后才被用于中端甚至更低端的存储产品中,比如虚拟化技术、自动精简配置技术、智能分层技术等。因此,高端存储产品被认为是存储新技术发展的风向标。在10月27日举行的日立数据系统公司(HDS)存储科技峰会上,HDS新一代高端存储产品VSP(Virtual Storage Platform)一亮相便引起了与会者的普遍关注,其独特
在Sybase公司美国加州的总部有一个叫做ELT(Executive Leadership Team) 的团队,这个团队里有一群“剩斗士”——他们在Sybase的平均工作时间超过了10年,有的甚至超过了20年。  是什么原因让这帮高管在这家公司工作如此之久?在同样也已经在Sybase工作10多年的Sybase大中华区合作伙伴及业务发展总监叶自立看来,答案就是Sybase的DNA。而所谓Sybase
“2010年第三季度,我们在中国移动领域的搜索份额已经超过了谷歌,排名第三,2011年第一季度或将有进一步的提升。”腾讯搜搜品牌与市场中心相关负责人告诉《中国计算机报》记者。  是什么让搜搜的无线业绩得以快速增长?腾讯搜索线执行副总裁李海翔将部分原因归于“搜搜拥有‘时间窗’”。    做“情境搜索”    “目前,在移动互联网领域,对搜搜来说存在一个‘时间窗’、‘机会窗’。”李海翔说。而创造这个“
正航软件1990年始创于中国台湾,2001年5月在厦门成立祖国大陆总部,并设立中国大陆地区研发总部、全国CallCenter客服中心、全国技术支持总部等。凭借多年来深厚的技术积累、服务经验积累和管理经验积累,凭借对两岸企业管理模式和管理细节的深刻理解,正航软件在企业管理信息化领域厚积薄发,现已成为两岸管理软件市场领导厂商之一。  正航软件作为专业ERP软件供应商和企业信息化解决方案的服务商,秉持“