论文部分内容阅读
随着云计算的快速发展,信息呈现爆炸式增长。廉价的云存储和计算能力,加速了大数据的产生,也使得解决大数据的信息收集和信息检索成为必然。大数据超过50%是非结构化数据,所以它们绝大部分以文件的形式存储。大数据被分成许多块存储在块服务器中,同时也产生存储在主服务器上的相应元数据。该文就如何收集大数据的web-url及关键词,又如何检索其中的信息,作了探讨。