论文部分内容阅读
来自互联网公司的大数据技术在具体应用方向上似乎与传统企业“口味不同”。ALEIYE能做的,就是把自己持有的大数据处理能力,横向地导入到传统企业,帮助它们构建自己的大数据平台,以此获得数据分析能力和挖掘能力。
记得大概在三年前,云计算的发展状态恰处于“懵懂期”。笔者在当时听说过很多有关云计算用途的说法,比如有人说云计算就是网格计算,有人说云计算是用来实现分布式计算的……现在看来,对于云计算大家都已经能够有了一个共同的认知——云计算更多被用于IT资源的合理调度和分配。
在ALEIYE实时大数据分析引擎创始人江舟看来,当下大数据的发展现状,恰好也正处于当年云计算经历的“懵懂期”,目前大数据的发展主要分两个方向:一个是以新兴互联网公司为代表,主要围绕互联网应用来发展大数据技术,它们通常持有大数据,比如DSP广告平台。另一个是以ALEIYE和Splunk为代表,它们虽然不持有大数据,但却倡导将大数据技术导入传统企业。
大数据有“口味”之别
在从前,国内传统企业在利用大数据技术的过程中,对于IT数据的采集、分析一直做得不够,这是因为传统企业还处于IT系统建设过程中。
近年来,一些传统企业也开始进行大数据平台的建设,尤其是银行、券商这种传统金融行业的企业已经能够借助IT快速发展,它们构建大数据平台主要是希望能够在多源异构的复杂IT环境下,实现如故障定位、运营分析、合规审计等与IT数据相关的一些操作和应用。
不过,如今市面上的大数据技术在具体应用方向上似乎与传统企业“口味不同”。
因为最早从事大数据技术研发的公司,大多来自互联网。比如那些做广告推送、用户画像、数据建模的互联网公司,它们提供的大数据解决方案,大多数都是基于互联网公司自身的业务逻辑,但这些业务逻辑实际上并不适用于传统企业。
“比如说互联网广告的数据分析,对于传统企业来说就没有意义,因为传统企业一般本身不做互联网广告。而传统企业仍旧需要大数据的处理手段和方式,ALEIYE正在做的就是帮助传统企业构建符合自己业务模式的大数据平台,帮助传统企业获得处理、分析数据的能力,而不是把市面上互联网数据分析的业务往企业身上‘生搬硬套’。”江舟对记者如是说。
结合实际需求构建能力
传统企业做大数据分析可以分为两个发展阶段。第一个阶段是实现数据从不可见到可见,原始数据一般是分散到各个软件或者硬件设备之中的,不同的软硬件产品构成了多源异构的复杂IT环境,每个产品所生成的日志格式也不一样,这时候的数据就是不可见的,所以需要进行采集和处理。第二个阶段是从可见到可用,这个阶段是通过对数据源进行关联分析实现的,比如,企业的官方网页打不开了,要在以前,很多人第一时间就会判断原因为网络故障或者是宽带断了,但有时这些并非是真正的原因,而通过关联分析,很快就能确定出真正的原因,比如数据库连接超时,或者被安全设备阻断了,并且故障排查时间也会大大缩短。
传统企业在应用大数据技术的过程中,也会存在着自己的需求。
第一个需求是时效性,从数据的生产到数据对企业产生作用都要求尽可能地做到实时,有的企业甚至要求大数据平台在2到3秒内告诉自己,某一个行为可能会产生哪些左右自己决策的影响。第二个需求是全量同步(数据同步有两种方式,一种是增量的同步,一种是全量的同步。增量同步主要是生产方和接收方生成和处理数据逻辑都不同,时间一长,很容易造成数据的不一致;全量同步一般不会造成数据的不一致情况,但随着数据量的增大,全量数据同步的体量往往也会更大),传统的ERP或者IT运维工具,要做到全量会很困难甚至伴随风险,所以企业利用大数据平台管理日志时,不管面对的是结构化还是半结构化的数据,都需要大数据平台能很快地做出关联数据分析,避免成为一个数据孤岛。第三个需求是数据的处理,从前的数据处理方式是采用传统关系型数据库或者一些文档结构,应用大数据处理技术可以提供更灵活的方式,比如类似百度搜索引擎的模式或者编写命令行的模式。这三个需求,是企业在应用大数据技术时的一些很关键的因素和立足点,这跟传统IT系统的整合是有所不同的。
当然,不同的大数据分析平台,在上述发展阶段中和满足传统企业的需求过程中所表现出的能力都不一样。
ALEIYE实时大数据分析引擎通过实时地采集全量的IT数据,比如网络信息、安全信息、应用程序的信息,数据采集来后,通过在顶层做一些比较符合中国人习惯使用的接口,比如提供贴合汉语语法的自然检索输入框、封装一些更符合工程人员使用的SQL语句,或者提供一些API,利用这些方式,能够让传统企业内部的IT人员从任意维度、任意时间范围进行数据检索,并且可以实现多种数据源的关联或者聚合分析,从而满足传统企业的个性化需求。
能力可通用
传统企业分散在很多不同的行业之中,要实现将大数据处理能力横向地导入到传统企业,最关键的一点,是要实现大数据处理能力的通用。
江舟认为,ALEIYE已经具备的一些优势,能够让自己的大数据处理能力实现通用。
在采集方面,ALEIYE的优势是能够做到对传统企业的IT设备的数据进行实时的采集,因为ALEIYE在面对多源异构的数据时,具备格式自适应和自学习的能力。比如交换机和防火墙产生的数据是不一样的,但导入ALEIYE时,无论企业的交换机、防火墙采用了什么品牌和型号,所有的日志数据都能够做到适配;存储方面,ALEIYE是基于x86架构下的设备构建的分布式系统,这为做到实时的分析和挖掘提供了很好的支撑;分析方面,ALEIYE采用了自主研发的索引结构,为实时分析提供有力支撑;挖掘方面,ALEIYE构建了一个算法库,这个算法库可以允许用户自定义,比如基于算法模型去调整因子,以适应不同业务模型的诉求。
为了证明ALEIYE 的能力可以做到通用,江舟给记者举了个例子:“我们此前为一家网站做过一个预测模型,功能是预测一段时间后,网络访问的流量会有多少,独立访客的数量会有多少,看上去这个预测模型只能做网页日志的分析和应用,但我们进行了微调和变种的处理后,就能把这个模型进行改造,用于帮助金融行业的客户做网络带宽负载分析预测。”
记得大概在三年前,云计算的发展状态恰处于“懵懂期”。笔者在当时听说过很多有关云计算用途的说法,比如有人说云计算就是网格计算,有人说云计算是用来实现分布式计算的……现在看来,对于云计算大家都已经能够有了一个共同的认知——云计算更多被用于IT资源的合理调度和分配。
在ALEIYE实时大数据分析引擎创始人江舟看来,当下大数据的发展现状,恰好也正处于当年云计算经历的“懵懂期”,目前大数据的发展主要分两个方向:一个是以新兴互联网公司为代表,主要围绕互联网应用来发展大数据技术,它们通常持有大数据,比如DSP广告平台。另一个是以ALEIYE和Splunk为代表,它们虽然不持有大数据,但却倡导将大数据技术导入传统企业。
大数据有“口味”之别
在从前,国内传统企业在利用大数据技术的过程中,对于IT数据的采集、分析一直做得不够,这是因为传统企业还处于IT系统建设过程中。
近年来,一些传统企业也开始进行大数据平台的建设,尤其是银行、券商这种传统金融行业的企业已经能够借助IT快速发展,它们构建大数据平台主要是希望能够在多源异构的复杂IT环境下,实现如故障定位、运营分析、合规审计等与IT数据相关的一些操作和应用。
不过,如今市面上的大数据技术在具体应用方向上似乎与传统企业“口味不同”。
因为最早从事大数据技术研发的公司,大多来自互联网。比如那些做广告推送、用户画像、数据建模的互联网公司,它们提供的大数据解决方案,大多数都是基于互联网公司自身的业务逻辑,但这些业务逻辑实际上并不适用于传统企业。
“比如说互联网广告的数据分析,对于传统企业来说就没有意义,因为传统企业一般本身不做互联网广告。而传统企业仍旧需要大数据的处理手段和方式,ALEIYE正在做的就是帮助传统企业构建符合自己业务模式的大数据平台,帮助传统企业获得处理、分析数据的能力,而不是把市面上互联网数据分析的业务往企业身上‘生搬硬套’。”江舟对记者如是说。
结合实际需求构建能力
传统企业做大数据分析可以分为两个发展阶段。第一个阶段是实现数据从不可见到可见,原始数据一般是分散到各个软件或者硬件设备之中的,不同的软硬件产品构成了多源异构的复杂IT环境,每个产品所生成的日志格式也不一样,这时候的数据就是不可见的,所以需要进行采集和处理。第二个阶段是从可见到可用,这个阶段是通过对数据源进行关联分析实现的,比如,企业的官方网页打不开了,要在以前,很多人第一时间就会判断原因为网络故障或者是宽带断了,但有时这些并非是真正的原因,而通过关联分析,很快就能确定出真正的原因,比如数据库连接超时,或者被安全设备阻断了,并且故障排查时间也会大大缩短。
传统企业在应用大数据技术的过程中,也会存在着自己的需求。
第一个需求是时效性,从数据的生产到数据对企业产生作用都要求尽可能地做到实时,有的企业甚至要求大数据平台在2到3秒内告诉自己,某一个行为可能会产生哪些左右自己决策的影响。第二个需求是全量同步(数据同步有两种方式,一种是增量的同步,一种是全量的同步。增量同步主要是生产方和接收方生成和处理数据逻辑都不同,时间一长,很容易造成数据的不一致;全量同步一般不会造成数据的不一致情况,但随着数据量的增大,全量数据同步的体量往往也会更大),传统的ERP或者IT运维工具,要做到全量会很困难甚至伴随风险,所以企业利用大数据平台管理日志时,不管面对的是结构化还是半结构化的数据,都需要大数据平台能很快地做出关联数据分析,避免成为一个数据孤岛。第三个需求是数据的处理,从前的数据处理方式是采用传统关系型数据库或者一些文档结构,应用大数据处理技术可以提供更灵活的方式,比如类似百度搜索引擎的模式或者编写命令行的模式。这三个需求,是企业在应用大数据技术时的一些很关键的因素和立足点,这跟传统IT系统的整合是有所不同的。
当然,不同的大数据分析平台,在上述发展阶段中和满足传统企业的需求过程中所表现出的能力都不一样。
ALEIYE实时大数据分析引擎通过实时地采集全量的IT数据,比如网络信息、安全信息、应用程序的信息,数据采集来后,通过在顶层做一些比较符合中国人习惯使用的接口,比如提供贴合汉语语法的自然检索输入框、封装一些更符合工程人员使用的SQL语句,或者提供一些API,利用这些方式,能够让传统企业内部的IT人员从任意维度、任意时间范围进行数据检索,并且可以实现多种数据源的关联或者聚合分析,从而满足传统企业的个性化需求。
能力可通用
传统企业分散在很多不同的行业之中,要实现将大数据处理能力横向地导入到传统企业,最关键的一点,是要实现大数据处理能力的通用。
江舟认为,ALEIYE已经具备的一些优势,能够让自己的大数据处理能力实现通用。
在采集方面,ALEIYE的优势是能够做到对传统企业的IT设备的数据进行实时的采集,因为ALEIYE在面对多源异构的数据时,具备格式自适应和自学习的能力。比如交换机和防火墙产生的数据是不一样的,但导入ALEIYE时,无论企业的交换机、防火墙采用了什么品牌和型号,所有的日志数据都能够做到适配;存储方面,ALEIYE是基于x86架构下的设备构建的分布式系统,这为做到实时的分析和挖掘提供了很好的支撑;分析方面,ALEIYE采用了自主研发的索引结构,为实时分析提供有力支撑;挖掘方面,ALEIYE构建了一个算法库,这个算法库可以允许用户自定义,比如基于算法模型去调整因子,以适应不同业务模型的诉求。
为了证明ALEIYE 的能力可以做到通用,江舟给记者举了个例子:“我们此前为一家网站做过一个预测模型,功能是预测一段时间后,网络访问的流量会有多少,独立访客的数量会有多少,看上去这个预测模型只能做网页日志的分析和应用,但我们进行了微调和变种的处理后,就能把这个模型进行改造,用于帮助金融行业的客户做网络带宽负载分析预测。”