论文部分内容阅读
商业智能(BI)市场将向何处去?对此,在这一领域已经耕耘超过十年的Teradata公司首席技术官宝立明认为,商业智能市场将出现四个趋势,它们将会为下一代BI产业的发展奠定基础。
这四个发展趋势的共同点在于,它们都是基于数据量的大幅度增加的,并且要求数据处理能力的普及化,使战略决策层面,以及运行决策层都能够运用这种高级的数据处理能力。宝立明和Teradata的目標就是要让客户的数据库规模在扩大的同时,数据使用的效率也能够提高。
传感技术无处不在
四大趋势之一,就是广泛分布的传感器网络所产生海量的数据,将被收集成为用于分析的数据。
宝立明说:“传感技术无处不在,它可以用于跟踪所有物体的移动,并可跟踪产品的全生命周期价值链,将传感技术应用于BI领域,必然能拓展BI的应用领域,深化BI的应用层次。”
宝立明以汽车保险为例说明传感技术的BI应用。传统的保险定价方法是,保险精算师根据每个驾驶员不同的风险因素计算出差异化的定价,这些风险因素通常包括:驾驶车型、所在地区、驾驶员的基本信息以及以往的驾驶记录等。如今,通过传感器对司机的驾驶习惯进行监控,譬如让经常超速驾驶或频繁变更车道的驾驶员支付更高的保险金,就可以实现基于实际行为的保险定价,比传统的方法更为公正。
普及化的BI
第二个趋势是,商业智能将向普及化演变,重视利用商业智能制定运营决策的企业将在组织内部上下层级纵向扩展商业智能的应用范围,直至所有知识型员工。目前,业界人士认为,业务线上的员工越来越多地参与更多的决策, BI正在从角落办公室搬到中心小隔间。
“组织中的所有人都能通过BI获取信息,这是普及化BI的根本。”宝立明说,“BI正从后台扩展至一线,甚至延伸到企业外部,为企业上下游的相关群体提供信息。Teradata一个独特的优势就在于可以提供上千用户随时访问使用数据,这是其他任何数据库都做不到的。这种动态的数据仓库可以把BI从战略决策层面带到具体执行层面,可以让企业更好地管理客户关系和供应链关系。”
宝立明以芝加哥机场为例介绍了这一趋势。假设有一个航班要晚点,可能有很多要转机的乘客误机,就需要很多的数据来分析,如登机口负责给客户办理登机手续的这些员工就需要关于如何安排这些误机的客户的数据分析。这个例子中,商业智能普及到了一线员工。
中国邮政是典型的普及化BI的案例。中国邮政EMS速递的邮件每天超过800万件,如何对庞大的速递信息进行实时监控、账务结算、快速查询,是中国邮政提高EMS服务水平的关键。中国邮政最终选定Teradata平台作为其特快专递系统的硬件平台,并采用Teradata动态数据仓库来搭建其第三代速递跟踪查询系统。如今,每天的EMS查询量为130万次,邮件的收寄和投递信息在处理完成5分钟内即可发送上网,极大地提高了查询时效性。
宝立明认为,普及化BI包含如下6大技术要素,而且这6大要素是不断演进的。一是动态企业集成,要把信息及时提供给一线员工,在这方面SOA可以助一臂之力;二是动态访问,信息要在短时间内被访问,不能有太长的时间延迟;三是动态工作量管理,将资源按照优先级别排队,使其得到较好的利用; 四是动态负载,信息的更新速度非常快;五是动态可用性,对信息的可用性要求较高,而不是简单的、无实用性的报告;六是动态事件,要实时地、动态地监测事件发生,而不是事后监测。
数据集市到集成数据仓库
数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、但信息本身又是相对稳定的数据集合。与其他数据库应用不同的是,数据仓库更像一种过程,是对分布在企业内部各处业务数据的整合、加工和分析的过程。而数据集市可称作“小数据仓库”,是用来分析相关专门业务问题或功能目标而做的专项数据集合。它建立在具有统一数据存储模型的数据仓库下,各级业务人员按照各部门特定的需求把数据进行复制、处理、加工,并最终统一展现为有部门特点的数据集合。
宝立明认为,企业拥有很多不同的数据集市与拥有集成的数据仓库(即把所有的数据集中在一个数据仓库里)相比,前者的总成本比后者高70%。所以我们现在要做的就是让数据仓库更加集中化,这样可以减少冗余,提高效率。
他认为,在目前全球金融危机的压力下,首先要做的就是要让技术更加高效,在成本上需要减少数据集市的
数量,让数据仓储更加集中化,从而能够更有效地利用现有的IT资产。
关注非结构化数据
在大多数企业里,80%的数据是非结构化的,只有20%是结构化的。而第一代数据仓库中的数据100%来自结构化环境。在非结构化环境中也存在着大量重要的信息。这些信息被第一代数据仓库给忽略了。第二代数据仓库有全面的数据需求,所以必须将非结构化数据也保存入数据仓库之中。
宝立明介绍,针对非结构化和半结构化数据类型的处理,Teradata还要与合作伙伴进行协作。“举一个例子,就是语音分析算法。我们的语音分析工具可以判断出说话的人是否在说谎。比如我们打一个电话给信用卡有拖欠还款的客户,询问是否能在本周五还款,有些人说可以只不过是为了应付,也有的人真想偿还欠款。我们能够从声音中分析出来他是否真想还钱,并相应地改变收款的策略。但是,针对这些非传统型的数据,我们要通过第三方的专家如语音方面的专家,把他们提供的功能内置到我们这个数据库之中,来处理非结构型数据。”
这四个发展趋势的共同点在于,它们都是基于数据量的大幅度增加的,并且要求数据处理能力的普及化,使战略决策层面,以及运行决策层都能够运用这种高级的数据处理能力。宝立明和Teradata的目標就是要让客户的数据库规模在扩大的同时,数据使用的效率也能够提高。
传感技术无处不在
四大趋势之一,就是广泛分布的传感器网络所产生海量的数据,将被收集成为用于分析的数据。
宝立明说:“传感技术无处不在,它可以用于跟踪所有物体的移动,并可跟踪产品的全生命周期价值链,将传感技术应用于BI领域,必然能拓展BI的应用领域,深化BI的应用层次。”
宝立明以汽车保险为例说明传感技术的BI应用。传统的保险定价方法是,保险精算师根据每个驾驶员不同的风险因素计算出差异化的定价,这些风险因素通常包括:驾驶车型、所在地区、驾驶员的基本信息以及以往的驾驶记录等。如今,通过传感器对司机的驾驶习惯进行监控,譬如让经常超速驾驶或频繁变更车道的驾驶员支付更高的保险金,就可以实现基于实际行为的保险定价,比传统的方法更为公正。
普及化的BI
第二个趋势是,商业智能将向普及化演变,重视利用商业智能制定运营决策的企业将在组织内部上下层级纵向扩展商业智能的应用范围,直至所有知识型员工。目前,业界人士认为,业务线上的员工越来越多地参与更多的决策, BI正在从角落办公室搬到中心小隔间。
“组织中的所有人都能通过BI获取信息,这是普及化BI的根本。”宝立明说,“BI正从后台扩展至一线,甚至延伸到企业外部,为企业上下游的相关群体提供信息。Teradata一个独特的优势就在于可以提供上千用户随时访问使用数据,这是其他任何数据库都做不到的。这种动态的数据仓库可以把BI从战略决策层面带到具体执行层面,可以让企业更好地管理客户关系和供应链关系。”
宝立明以芝加哥机场为例介绍了这一趋势。假设有一个航班要晚点,可能有很多要转机的乘客误机,就需要很多的数据来分析,如登机口负责给客户办理登机手续的这些员工就需要关于如何安排这些误机的客户的数据分析。这个例子中,商业智能普及到了一线员工。
中国邮政是典型的普及化BI的案例。中国邮政EMS速递的邮件每天超过800万件,如何对庞大的速递信息进行实时监控、账务结算、快速查询,是中国邮政提高EMS服务水平的关键。中国邮政最终选定Teradata平台作为其特快专递系统的硬件平台,并采用Teradata动态数据仓库来搭建其第三代速递跟踪查询系统。如今,每天的EMS查询量为130万次,邮件的收寄和投递信息在处理完成5分钟内即可发送上网,极大地提高了查询时效性。
宝立明认为,普及化BI包含如下6大技术要素,而且这6大要素是不断演进的。一是动态企业集成,要把信息及时提供给一线员工,在这方面SOA可以助一臂之力;二是动态访问,信息要在短时间内被访问,不能有太长的时间延迟;三是动态工作量管理,将资源按照优先级别排队,使其得到较好的利用; 四是动态负载,信息的更新速度非常快;五是动态可用性,对信息的可用性要求较高,而不是简单的、无实用性的报告;六是动态事件,要实时地、动态地监测事件发生,而不是事后监测。
数据集市到集成数据仓库
数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、但信息本身又是相对稳定的数据集合。与其他数据库应用不同的是,数据仓库更像一种过程,是对分布在企业内部各处业务数据的整合、加工和分析的过程。而数据集市可称作“小数据仓库”,是用来分析相关专门业务问题或功能目标而做的专项数据集合。它建立在具有统一数据存储模型的数据仓库下,各级业务人员按照各部门特定的需求把数据进行复制、处理、加工,并最终统一展现为有部门特点的数据集合。
宝立明认为,企业拥有很多不同的数据集市与拥有集成的数据仓库(即把所有的数据集中在一个数据仓库里)相比,前者的总成本比后者高70%。所以我们现在要做的就是让数据仓库更加集中化,这样可以减少冗余,提高效率。
他认为,在目前全球金融危机的压力下,首先要做的就是要让技术更加高效,在成本上需要减少数据集市的
数量,让数据仓储更加集中化,从而能够更有效地利用现有的IT资产。
关注非结构化数据
在大多数企业里,80%的数据是非结构化的,只有20%是结构化的。而第一代数据仓库中的数据100%来自结构化环境。在非结构化环境中也存在着大量重要的信息。这些信息被第一代数据仓库给忽略了。第二代数据仓库有全面的数据需求,所以必须将非结构化数据也保存入数据仓库之中。
宝立明介绍,针对非结构化和半结构化数据类型的处理,Teradata还要与合作伙伴进行协作。“举一个例子,就是语音分析算法。我们的语音分析工具可以判断出说话的人是否在说谎。比如我们打一个电话给信用卡有拖欠还款的客户,询问是否能在本周五还款,有些人说可以只不过是为了应付,也有的人真想偿还欠款。我们能够从声音中分析出来他是否真想还钱,并相应地改变收款的策略。但是,针对这些非传统型的数据,我们要通过第三方的专家如语音方面的专家,把他们提供的功能内置到我们这个数据库之中,来处理非结构型数据。”