论文部分内容阅读
互联网技术的迅猛发展,以及手机、平板、智能电视等各种输入终端的普及,让互联网数据呈现出爆炸性的增长。面对海量的数据,如何能以更加稳定、快速的方式存储海量数据,以及从中挖掘出有价值的信息,成为很多企业面临的新课堂。云存储的出现为数据挖掘快速的发展带来了新的机遇。亚马逊、微软、谷歌、IBM等等巨头纷纷推出了自己的云存储平台,国内百度,华为、腾讯、360等等公司也加紧了在云存储领域的布局。论文以海量的论坛数据做存储样本,搭建了一个支持水平扩展的实验系统。设计并实现了多种论坛数据抽取的方法。最后验证了云存储带来的性能优势。本文主要开展了以下几方面的工作:1)本文详细介绍了因云存储发展而带动起来的NOSQL,阐述了各类NOSQL的特点,根据论坛数据的特征,最终筛选了MongoDB来存储数据,并把它与流行的传统关系库MYSQL做了比较,总结了MongoDB的部分优势。随后介绍了MongoDB的使用方式和存储论坛数据的方法。2)简述了各类论坛信息抽取的方法,随后分析国内论坛的特点和论坛本身的结构特征,把论坛分成两类:通用论坛和专用论坛。对于通用论坛,用正则表达式进行精确的信息获取;对于专用论坛,提出并设计了一套启发式的抽取方法。应用不同的抽取方法抽取各类论坛数据,提高了抽取准确率。3)为验证新设计的存储方式,以及各类论坛信息抽取算法的可行性。本文结合多种论坛数据挖掘方法,设计了一个基于MongoDB分布式存储的论坛抽取实验系统,使系统能支持水平扩展和稳定的存储海量论坛数据,并且准确的挖掘出论坛中各类有用的数据。待存储的数据量达到一定规模后,测试了论坛大数据的存储能力,比较了多种查询下的存储性能。得出了分布式环境下的云存储,在处理大数据上,与单服务架构的MongoDB相比,具有压倒性的优势。4)最后对论文工作进行了总结,并讨论了存在的问题和对进一步工作的展望。