论文部分内容阅读
伴随着云时代的来临,大数据一词被越来越多地提及并认识,人们也越来越多地意识到数据的重要性并尝试去挖掘掩藏在其中的价值。大数据一般用来描述和定义信息爆炸时代产生的海量数据,社交网络的海量数据便是其中的代表之一。Twitter、Facebook、新浪微博、微信等社交媒体的网络中储存着海量的用户节点,每个用户节点又同时存储着大量的个人社交和交互发布信息,随着移动互联网应用的不断普及,这些数据每时每刻都在不断地更新变化并呈现出井喷式的信息增长趋势,其特点具备了大数据的特征。社交网络的用户参与度很高,用户能够方便快捷地通过其平台自由地分享个人信息,获取和传播他人的信息。由于其影响力以及传播的广度和深度,人们在社交网络中表达自己情绪和观点的现象越来越普遍,而隐含在其中的海量情感信息流看似细碎而杂乱,但却隐藏着巨大的价值等待着被挖掘,这就使得对海量数据中的文本进行情感分类的研究有着十分重要的意义。然而,传统的文本情感分类研究均是在单机上进行,面对社交网络中出现的海量数据,传统单机上的情感分析算法难以快速地完成情感分类的任务,其时间效率和扩展性等成为了瓶颈,需要研究适合于海量数据情感分类任务的计算模式。云计算的出现和发展为解决海量数据下的情感分类任务提供了新的解决方案。它弥补了传统单机计算上的不足,通过构建的分布式情感分类算法以及分布式架构,使得海量数据下的情感分类任务的可行性得到了增强。本文在研究分析了现有的文本情感分类技术的基础上,结合云计算技术,探讨构建一个适合于海量数据的基于Spark的文本情感分类模型的可行性。根据海量数据文本信息的特点,对文本进行词语级别的情感极性识别,建立了覆盖面更广的情感字典;通过对文本情感特征的提取和加权,并借助Spark的并行计算模型,构建分布式朴素贝叶斯情感分类模型用以处理大规模的数据:而针对情感特征并不明显的文本信息,通过分析文本语法,句间联系等相关特征,构建基于Spark的SVM情感分类模型对文本进行情感分类;基于云计算技术的情感分析需要采集海量的数据对其进行验证,对于海量数据的获取,论文通过详细的数据请求分析,模拟登陆,页面获取及解析获得所需要的实验数据,对模型进行验证分析。实验结果显示,本文构建的模型能够较好地适用于海量数据的文本情感分类,达到了较为理想的分类效果以及时间效率及扩展性,对处理海量的文本信息具有可行性。