论文部分内容阅读
<正>互联网行业在大数据的积累和应用以BAT三巨头最值得关注。百度、腾讯和阿里巴巴在大数据的应用上虽然有共同的地方,但由于各自的数据来源和商业模式的不同,其大数据应用也有不同的特色。百度大数据最重要的来源是通过"爬虫"搜集的100多个国家的近万亿网页数据,数据量是在EB级的规模。百度的数据非常多样化,其收集的数据既有非结构化的或者半结构化的数据,包括网页数据、视频和图片等百度:开放的是基础设施和硬件能力