论文部分内容阅读
大数据的流水线彻夜未停。
2016年11月12日,周六,数据工程师关铮铮通宵之后仍未合眼。并非“双十一”剁手,而是在调取整个“双十一”的销售数据。
他要赶出一篇数据报告。
关铮铮所在环节之前,数据获取、数据清洗、数据建模,每一步都有所谓的数据工程师坐在电脑前复制粘贴,或是敲着代码。一秒钟17万个电商订单在线上堆积,就像一团乱麻,他们将这些麻线搬运、筛选、横竖摆置,织成一张张PPT画布。
乱麻需快刀斩。在整个大数据流水线中,AI扮演着快刀角色,它以更高的效率辅助数据工程师;也在飞速的成长中,慢慢“侵袭”这群人。
云端机会
数据即资产,这已是共识。到2020年,我国大数据相关产品和服务业务收入将突破10 000亿元,年复合增长率保持在30%左右。
数据工程师稀缺性凸显。
关铮铮负责数据链条最后一个环节,从数据的变化得出结论。由于客户都是企业,所以得有专业的观点。“跟我原来的工作很像,都是整合数据和已有经验提出结论和建议”。2015年,他踩着大数据风口,从咨询公司跳槽而来。
AI打败了咨询公司里关铮铮的上游,填单子、做调研等工作已不需要投入大量人力。大数据公司里,关铮铮的上游是谁?数据清理工程师、数据架构师、算法工程师……
“工程师”的名号似乎很有优越感,实际上他们就像销售公司里的“经理”。Jawbone数据科学副总裁Monica Rogati曾介绍,大部分数据工程师的工作极其枯燥乏味,他们80%的时间都是大数据苦工。
初始数据库的生成,就像把原材料筛选出来,拼装成了一个个零部组件,这由数据清理工程师完成;挖掘数据的规律、价值,让数据按照既有的逻辑得出想要的结果,由数据架构师和算法工程师操作;得出数据产品,分析背后的原因,关铮铮便属于这个工种。这部分直接用到的数据部分不多,但要依托于数据呈现的结果。
简单重复、机械乏味,数据工程师就像富士康工人各司其职。但他们清楚,每一个环节里,人成为了领导,AI还不能够自主做事。
因此他们依旧稀缺。关铮铮的领导每年毕业季都要跑到北京、上海、西安等高校聚集的城市,市面上成熟的数据工程师奇缺,他只能把手伸到上游生源。
清华大数据产业联合会的秘书长王霞曾讲到,清华大数据相关专业的毕业生供不应求,还没毕业都已被企业预定完毕。
身价背后
大华,是这一个行业崛起的受益者。
从最开始月薪7 000元的毕业生,到现在月薪超过20 000元的算法工程师,他只用了两年。“未来一定会越来越好,你翻翻百度、今日头条这些公司的招聘,大数据相关的工程师起薪至少50 000元,这还只是一线工作人员。”聊起自己这部分工作,大华充满信心。
虽然对收入没有这么大的预期,但关铮铮同样很满意现在的状态。他很愿意接纳现有的AI辅助,为了时效赶报告,AI帮他省去了不少简单却繁多的工作。
关铮铮入行快10年,最初做咨询研究时,支撑分析的数据报表需要研究员用Excel去刷,“Excel已经是相对很智能的工具了,那个时候Excel最多可以处理65 536条数据,后来可以升级到10万条,但都不及现在。”
那时,关铮铮为了得出一个数据报表,需要在Excel里填写不同的公式。简单报表得要一天才能完成,复杂些的就要耗上好几天。而今,这些数据报表都是前端的IT人员做出来的,跑报表也不用手动操作,“机器自动完成,原来辛苦一天才能做出一个报表,现在机器一天就可以完成几千份。”
但欣喜背后同样有不为人知的辛苦。
数据清理师王姐头痛的是,没完没了地给数据补属性。
王姐主要负责商品数据的清洗工作,原始数据都需要包含商品的品牌、价格,以及相关的性能等标签。少一个标签都有可能在入库以后出错,严重时会影响产品的最终呈现。
最开始,这些补码的工作完全是由人工完成的,每个人从早到晚盯着拉不到底的Excel填空,时间稍长特别容易看串行,所以数据的初审复审等质检工作非常重要。
隨着非结构化数据类型的增加、数据量几何型增长以及数据计算逻辑越发复杂,在原有IT系统里,要完成全部数据处理工作几乎是不可能完成的。
现在,初级的补码工作开始由AI来代替,但是人工还是不能省掉。“机器毕竟还比较机械化,它只会在固定的位置补标签,如果原始数据串行,机器同样会发生错误,人工就会比机器考虑得更为全面些。”
他们习惯于将我们认为的AI,称为“机器”。
谁占上风
虽然会尝试引入AI替代人工,但在王姐看来,现在的AI还太初级,数据的清洗不只是补补码,贴贴漏掉的标签那么简单。生成原始的数据库需要一定的逻辑在里边:哪些标签需要加进来?哪些标签的权重更高?根据市场的变化,标签的性质、权重又都需要调整,即便有被AI替代的可能,也是重复、机械性的那部分,完全替代还需要时间。
“AI还太初级”,王姐道出了真谛。弱AI只能执行简单任务,强AI才能够达到与人类持平的智能水平。但王姐没有想到,强AI会在未来20~30年实现,已经成为行业的共识。
目前来看,大华最不容易被替代。
数据工程师进到算法和建模阶段,几乎都需要与具体业务场景关的,然后通过算法模型和编程,完成数据产品从初级阶段到成品的加工。
大华对于“AI能替代他”的观点感到惊讶。大华认为,大数据就是通过算法和模型,在多源多维的数据中建立关联并挖掘其中的规律,并通过分布式技术,让系统的数据存储和计算能力大幅提高。目前公司的AI程序编写,大华也有参与,“你说我编出来的一个程序,回头把我替代了?”
人们在误解AI。科大讯飞的语音识别系统是AI,载着李彦宏闯入五环的无人驾驶汽车是AI,海尔在AWE上推出的物联网是AI,那么富士康的机械手是AI吗?
都是。通过大量数据输入,不停息的机器学习,AI正在变得越来越智能。数据是AI的营养池,所以在互联网、金融等产生海量数据的行业里,AI吸食数据,并抢夺工作机会。
关铮铮组装数据,并将之形成产品。AI可以比他做更好看的PPT,可以比他懂更多的行业知识,更可以神速般分析数据。AI可能取代他吗?他同样自信地觉得能常驻与此。
取代或是不取代,我们不得而知。AI正在以每天学习30 000套棋谱的速度追赶人类,我们以怎样的心态与行动去迎接,才是最有意义的话题。
北京东四环,华灯初上。往北30公里,富士康工人已做好交接班,开始2元/次的KTV,4元/次的电影,或是10元/次的按摩。关铮铮所在大数据公司灯火通明,外卖和泡面的味道在楼层乱窜。
键盘哒哒响动。
2016年11月12日,周六,数据工程师关铮铮通宵之后仍未合眼。并非“双十一”剁手,而是在调取整个“双十一”的销售数据。
他要赶出一篇数据报告。
关铮铮所在环节之前,数据获取、数据清洗、数据建模,每一步都有所谓的数据工程师坐在电脑前复制粘贴,或是敲着代码。一秒钟17万个电商订单在线上堆积,就像一团乱麻,他们将这些麻线搬运、筛选、横竖摆置,织成一张张PPT画布。
乱麻需快刀斩。在整个大数据流水线中,AI扮演着快刀角色,它以更高的效率辅助数据工程师;也在飞速的成长中,慢慢“侵袭”这群人。
云端机会
数据即资产,这已是共识。到2020年,我国大数据相关产品和服务业务收入将突破10 000亿元,年复合增长率保持在30%左右。
数据工程师稀缺性凸显。
关铮铮负责数据链条最后一个环节,从数据的变化得出结论。由于客户都是企业,所以得有专业的观点。“跟我原来的工作很像,都是整合数据和已有经验提出结论和建议”。2015年,他踩着大数据风口,从咨询公司跳槽而来。
AI打败了咨询公司里关铮铮的上游,填单子、做调研等工作已不需要投入大量人力。大数据公司里,关铮铮的上游是谁?数据清理工程师、数据架构师、算法工程师……
“工程师”的名号似乎很有优越感,实际上他们就像销售公司里的“经理”。Jawbone数据科学副总裁Monica Rogati曾介绍,大部分数据工程师的工作极其枯燥乏味,他们80%的时间都是大数据苦工。
初始数据库的生成,就像把原材料筛选出来,拼装成了一个个零部组件,这由数据清理工程师完成;挖掘数据的规律、价值,让数据按照既有的逻辑得出想要的结果,由数据架构师和算法工程师操作;得出数据产品,分析背后的原因,关铮铮便属于这个工种。这部分直接用到的数据部分不多,但要依托于数据呈现的结果。
简单重复、机械乏味,数据工程师就像富士康工人各司其职。但他们清楚,每一个环节里,人成为了领导,AI还不能够自主做事。
因此他们依旧稀缺。关铮铮的领导每年毕业季都要跑到北京、上海、西安等高校聚集的城市,市面上成熟的数据工程师奇缺,他只能把手伸到上游生源。
清华大数据产业联合会的秘书长王霞曾讲到,清华大数据相关专业的毕业生供不应求,还没毕业都已被企业预定完毕。
身价背后
大华,是这一个行业崛起的受益者。
从最开始月薪7 000元的毕业生,到现在月薪超过20 000元的算法工程师,他只用了两年。“未来一定会越来越好,你翻翻百度、今日头条这些公司的招聘,大数据相关的工程师起薪至少50 000元,这还只是一线工作人员。”聊起自己这部分工作,大华充满信心。
虽然对收入没有这么大的预期,但关铮铮同样很满意现在的状态。他很愿意接纳现有的AI辅助,为了时效赶报告,AI帮他省去了不少简单却繁多的工作。
关铮铮入行快10年,最初做咨询研究时,支撑分析的数据报表需要研究员用Excel去刷,“Excel已经是相对很智能的工具了,那个时候Excel最多可以处理65 536条数据,后来可以升级到10万条,但都不及现在。”
那时,关铮铮为了得出一个数据报表,需要在Excel里填写不同的公式。简单报表得要一天才能完成,复杂些的就要耗上好几天。而今,这些数据报表都是前端的IT人员做出来的,跑报表也不用手动操作,“机器自动完成,原来辛苦一天才能做出一个报表,现在机器一天就可以完成几千份。”
但欣喜背后同样有不为人知的辛苦。
数据清理师王姐头痛的是,没完没了地给数据补属性。
王姐主要负责商品数据的清洗工作,原始数据都需要包含商品的品牌、价格,以及相关的性能等标签。少一个标签都有可能在入库以后出错,严重时会影响产品的最终呈现。
最开始,这些补码的工作完全是由人工完成的,每个人从早到晚盯着拉不到底的Excel填空,时间稍长特别容易看串行,所以数据的初审复审等质检工作非常重要。
隨着非结构化数据类型的增加、数据量几何型增长以及数据计算逻辑越发复杂,在原有IT系统里,要完成全部数据处理工作几乎是不可能完成的。
现在,初级的补码工作开始由AI来代替,但是人工还是不能省掉。“机器毕竟还比较机械化,它只会在固定的位置补标签,如果原始数据串行,机器同样会发生错误,人工就会比机器考虑得更为全面些。”
他们习惯于将我们认为的AI,称为“机器”。
谁占上风
虽然会尝试引入AI替代人工,但在王姐看来,现在的AI还太初级,数据的清洗不只是补补码,贴贴漏掉的标签那么简单。生成原始的数据库需要一定的逻辑在里边:哪些标签需要加进来?哪些标签的权重更高?根据市场的变化,标签的性质、权重又都需要调整,即便有被AI替代的可能,也是重复、机械性的那部分,完全替代还需要时间。
“AI还太初级”,王姐道出了真谛。弱AI只能执行简单任务,强AI才能够达到与人类持平的智能水平。但王姐没有想到,强AI会在未来20~30年实现,已经成为行业的共识。
目前来看,大华最不容易被替代。
数据工程师进到算法和建模阶段,几乎都需要与具体业务场景关的,然后通过算法模型和编程,完成数据产品从初级阶段到成品的加工。
大华对于“AI能替代他”的观点感到惊讶。大华认为,大数据就是通过算法和模型,在多源多维的数据中建立关联并挖掘其中的规律,并通过分布式技术,让系统的数据存储和计算能力大幅提高。目前公司的AI程序编写,大华也有参与,“你说我编出来的一个程序,回头把我替代了?”
人们在误解AI。科大讯飞的语音识别系统是AI,载着李彦宏闯入五环的无人驾驶汽车是AI,海尔在AWE上推出的物联网是AI,那么富士康的机械手是AI吗?
都是。通过大量数据输入,不停息的机器学习,AI正在变得越来越智能。数据是AI的营养池,所以在互联网、金融等产生海量数据的行业里,AI吸食数据,并抢夺工作机会。
关铮铮组装数据,并将之形成产品。AI可以比他做更好看的PPT,可以比他懂更多的行业知识,更可以神速般分析数据。AI可能取代他吗?他同样自信地觉得能常驻与此。
取代或是不取代,我们不得而知。AI正在以每天学习30 000套棋谱的速度追赶人类,我们以怎样的心态与行动去迎接,才是最有意义的话题。
北京东四环,华灯初上。往北30公里,富士康工人已做好交接班,开始2元/次的KTV,4元/次的电影,或是10元/次的按摩。关铮铮所在大数据公司灯火通明,外卖和泡面的味道在楼层乱窜。
键盘哒哒响动。