论文部分内容阅读
我跟大家分享的是关于大数据时代的一些想法。 开始的时候,先把数据链条给大家解释一下,关于数据处理这件事情,究竟有哪一些内容,第一是数据,先有这些数据,才有事情可以做。很多人没有意识到,从我们以前做的很多事情来看这个是最最重要的,包括清洗数据处理这部分,因为很多是属于噪音,还有一些是数据获取过程当中是失败的。数据来了,一开始的时候,可能是纷繁复杂的,但是要让它变得有效,必须要结构化,让这些数据能够被存储被展示,互相能串得起来,对于历史上的发生的事情有一个完整的描述。有了结构化的描述之后,最后还是要大规模的存储,完了是处理,除了之后,会变成跟你的业务模式比较相关的那类的查询。在处理查询这部分,很多人讲的人工智能机器学习都是指的这部分工作。在后面学习出来的数据,学习出来的结论,学习出来的报表如何可视化的展示,否则只有电脑看得懂,人看不懂没有用的。这些可视化的,怎么放到你的最后决策过程当中,这个是最后那部分。很多公司讲大部分,数据处理,最后都是为了这一步,如果不能到这一步,这些公司做大数据是没有意义的。最后是一个循环过程。