基于Spark的文本情感分类模型应用研究

被引量 : 8次 | 上传用户：liyaxing

【摘要】

：

伴随着云时代的来临,大数据一词被越来越多地提及并认识,人们也越来越多地意识到数据的重要性并尝试去挖掘掩藏在其中的价值。大数据一般用来描述和定义信息爆炸时代产生的海

【作者】

：

陈培文

【发表日期】

：

2015年01期

【关键词】

：

情感分类 Spark 情感特征 RDD

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

伴随着云时代的来临,大数据一词被越来越多地提及并认识,人们也越来越多地意识到数据的重要性并尝试去挖掘掩藏在其中的价值。大数据一般用来描述和定义信息爆炸时代产生的海量数据,社交网络的海量数据便是其中的代表之一。Twitter、Facebook、新浪微博、微信等社交媒体的网络中储存着海量的用户节点,每个用户节点又同时存储着大量的个人社交和交互发布信息,随着移动互联网应用的不断普及,这些数据每时每刻都在不断地更新变化并呈现出井喷式的信息增长趋势,其特点具备了大数据的特征。社交网络的用户参与度很高,用户能够方便快捷地通过其平台自由地分享个人信息,获取和传播他人的信息。由于其影响力以及传播的广度和深度,人们在社交网络中表达自己情绪和观点的现象越来越普遍,而隐含在其中的海量情感信息流看似细碎而杂乱,但却隐藏着巨大的价值等待着被挖掘,这就使得对海量数据中的文本进行情感分类的研究有着十分重要的意义。然而,传统的文本情感分类研究均是在单机上进行,面对社交网络中出现的海量数据,传统单机上的情感分析算法难以快速地完成情感分类的任务,其时间效率和扩展性等成为了瓶颈,需要研究适合于海量数据情感分类任务的计算模式。云计算的出现和发展为解决海量数据下的情感分类任务提供了新的解决方案。它弥补了传统单机计算上的不足,通过构建的分布式情感分类算法以及分布式架构,使得海量数据下的情感分类任务的可行性得到了增强。本文在研究分析了现有的文本情感分类技术的基础上,结合云计算技术,探讨构建一个适合于海量数据的基于Spark的文本情感分类模型的可行性。根据海量数据文本信息的特点,对文本进行词语级别的情感极性识别,建立了覆盖面更广的情感字典；通过对文本情感特征的提取和加权,并借助Spark的并行计算模型,构建分布式朴素贝叶斯情感分类模型用以处理大规模的数据：而针对情感特征并不明显的文本信息,通过分析文本语法,句间联系等相关特征,构建基于Spark的SVM情感分类模型对文本进行情感分类；基于云计算技术的情感分析需要采集海量的数据对其进行验证,对于海量数据的获取,论文通过详细的数据请求分析,模拟登陆,页面获取及解析获得所需要的实验数据,对模型进行验证分析。实验结果显示,本文构建的模型能够较好地适用于海量数据的文本情感分类,达到了较为理想的分类效果以及时间效率及扩展性,对处理海量的文本信息具有可行性。

其他文献

学如登山渐入佳境——致新生

<正>怀揣着大学入学通知书,踌躇满志,意气风发,在自然风景优美,文化底蕴深厚的岳麓山下,开始一种全新的学习和研究的生活,实在是一种高兴事。充满着喜悦,充满着好奇,大学新生

期刊

登山

“不忘初心、牢记使命”的实践要求

为中国人民谋幸福，为中华民族谋复兴，是中国共产党人的初心和使命。这个初心和使命一直是激励中国共产党人前行的动力。在新时代，“不忘初心、牢记使命”就是要牢记党的根本宗旨

报纸

行走城市街道体验人文关怀

营造宜人步行的城市街区，有利于城市物质层面上的空间改善，并为和谐的街区社会关系提供生根发芽的土壤$$壮丽宏大的叙事，能给人带来一时的震撼；宜人生活的街区，给人的却是持久的感

报纸

基于GPRS网络的农村电网监测系统设计

设计了一种基于GPRS网络的农村电网监测系统.该系统利用STC12C5410AD单片机片内定时器测量频率和相位差,与采样、放大、精密整流和滤波电路配合,通过瞬时采样法测量电压、电

期刊

瞬时采样农村电网监控系统通用分组无线业务(GPRS)

遥想高山曲唯和流水缘——一节渐入佳境的椭圆习题课

<正>在中学数学教学中,教师的引领是非常重要的.把问题抛给学生,让学生充分思考,学生的思维中蕴藏着教师想象不到的精彩.现介绍一节渐入佳境的习题课与您分享.问题1椭圆x~2/a

期刊

习题课

推行海葬的市场化服务管理可行性初探

本文提出采用市场化服务的方式,应用现代互联网及计算机技术对海葬服务进行科学管理。在科学化、规范化和高效率化服务的基础上提高该项措施落实与健康发展,将极大的提高海葬

期刊

海葬市场化服务系统框架可行性

现代风险导向审计下的S公司重大错报风险研究

由于传统审计风险模型日益暴露出其缺陷,国际审计准则推出新的审计风险模型,即审计风险=重大错报风险×检查风险,新准则相对于旧准则来说最重要的是重大错报风险,即财务报表

学位

风险导向审计重大错报风险审计风险模型

坚守、抵抗与自救

张承志是中国当代文坛上一位有着独特个性的回族作家，他身上具有强烈的理想精神和鲜明的批判立场。他的文学创作始于内蒙古草原插队时期，前期主要以小说创作为主，凭借短篇小说《

学位

张承志散文坚守抵抗智识阶级民间自救

创新模式推动货运车联网产业融合发展

<正>货运物流行业是国民经济的重要支柱产业,在国民经济和社会发展中发挥着重要作用。随着我国经济持续快速发展,物流行业的需求不断扩大。近年来,我国的物流行业保持较快的

期刊

无车承运人产业融合发展新能源汽车物流行业物流产业创新模式

新型海洋救助船主要尺度选择、线型设计及研究

根据海洋救助船执行海上救生的特殊使命与要求,研究分析了系列海洋救助船的主尺度要素、线型设计特点,阐明了该类船所具有的船型特点,提供了此类船型的主要尺度及有关参数范

期刊

船舶工程海洋救助船尺度选择线型设计

基于Spark的文本情感分类模型应用研究

与本文相关的学术论文