论文部分内容阅读
智慧星光是一家以数据为核心的公司,我们的数据重点是在文本数据上。大家可能会在工作中遇到一些数据方面的困难,第一个困难是数据在哪里?我们找不到数据,举个例子,你想写报告研究一下“二孩”政策在网民当中的影响,这个数据在什么地方?在论坛里面?微博里面?微信公众号里面?怎么获得这个数据?如果有技术能力可以通过爬虫获取,但是很多人并没有这个能力。拿到数据之后怎么做处理?如果是三条五条处理起来非常容易,300条也是容易的,但是如果是3万条、300万条,特别是文本数据,我们该怎么处理?这个也是大家所遇到的困难之一。