基于Spark和机器学习的文本情感分析研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:zpbaqq1314
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代的来临让人们逐渐认识到数据的重要性,并且尝试去寻找这些数据背后的价值和规律。互联网用户的增长带动互联网上的文本数据指数级增长,如何对这些海量的文本数据进行情感分析是当前研究的热点。现有的基于单主机的文本情感分析方法未能将高精确度的情感分类与快速处理结合起来,因而在面对海量文本数据处理上就显得力不从心。云计算的出现和应用对于有效解决基于海量文本数据的情感分析提供了新的方法,能有效弥补单主机计算上的不足,满足海量文本数据处理的要求。本文在对当前国内外学者在文本情感分析方法进行深入研究的基础上,以机器学习算法作为文本情感分析的基础,结合Spark支持交互式计算和复杂算法以及其基于内存的运算特性,针对海量文本数据,提出了搭建Spark分布式计算平台并将该平台与机器学习进行有机结合的新思路,对基于Spark和机器学习的文本情感分析方法进行了深入的分析和研究。本文主要研究内容如下:(1)针对海量文本数据,构建了文本数据采集的系统框架。本文采用Scrapy爬虫框架对互联网上的海量文本数据进行爬取,并通过Flume日志收集系统将采集的文本数据以流式传输到HDFS中进行存储,从而保证了数据的可靠性、实时性和易用性。(2)构建汉语复句关系词搭配语料库。本文使用Scrapy爬虫框架对《中国知网》上近几年学术期刊、学位论文以及会议论文的中文摘要部分进行复句文本数据采集,并提出了一种基于关系词搭配的决策式复句情感分析方法。(3)对采集到的文本数据建立了基于Spark平台的数据预处理方案,以降低处理维度。数据预处理包括清洗、分词、去除停用词、特征提取和向量建模。本文制定了利用Spark进行数据清洗的详细步骤;运用Ansj对中文文本进行分词;基于哈工大提供的中文停用词表,给出了去除停用词的具体流程;利用TF-IDF算法实现对文本数据的特征提取。(4)在对各类文本情感分析方法进行分析的基础上,利用Spark计算框架构建了支持向量机分类模型、朴素贝叶斯分类模型和TextCNN分类模型。为了更高效的得到计算结果,提高计算效率,本文将支持向量机与随机梯度下降算法相结合,朴素贝叶斯分类模型则选用多项式朴素贝叶斯算法。同时,给出了基于Spark的情感分类算法流程。(5)针对海量文本数据,为了提高情感分类的效率,本文利用HDFS实现网络文本数据的分布式存储,并结合Spark分布式内存并行计算框架,实现了基于Spark分布式平台的情感分类模型的并行化优化,完成了对支持向量机、朴素贝叶斯和TextCNN三种分类模型的文本情感分析处理。通过与单主机平台进行实验对比,实验结果表明,基于Spark分布式计算平台进行文本情感分析,不仅在分类精确度方面比单主机平台高,而且在计算效率方面,当数据量规模较大时,其分析效率也比单主机高。缩短了训练时间,加快了运算速率。充分表明了本文提出的基于Spark的文本情感分析方法对海量文本数据情感分析的有效性。
其他文献
因果复句是汉语中应用最广泛,使用最频繁的复句,是汉语复句研究中不可缺少的一个重要部分。复句的研究首先是要理解复句的语义,这就需要对复句的关系进行识别。对有标复句来说,可以根据关系词来识别复句的关系,但关系词识别也是一个难题,有时一个关系词可以对应多种类别,这更为复句的关系识别增加了困难。目前,对于复句关系识别有多种方法,基于规则和基于机器学习的方法都太过依赖人工选择的特征,会存在人工构建特征稀疏、
量子色动力学(Quantum Chromodynamics,简称QCD)是一种描述夸克和胶子之间强相互作用的规范理论。QCD预言当达到一定的高温高密状态时,禁闭在强子态内部的夸克会解禁闭形成夸克胶子等离子体(QGP)。在低温高重子化学势区域,强子态到QGP是一级相变,且一级相变的终止点为临界点;高温低重子化学势区域为平滑过渡区域。对于QCD相图的结构,其中最重要的便是确定临界点的位置。目前理论认为
科学技术的不断发展给网络技术推动人类文明进步提供了平台和导向。当今的信息化时代,监控视频广泛应用,使得智能视频获得了前所未有的发展。但是还未满足市场对其更人性化的需求,如一些固定场景下的实时行为识别检测、行为警报系统等应用。越来越多的人开始关注视频识别检测领域的发展情况,并进行科学研究和分析。在行为检测方面,相比于费时费力的传统方法,卷积神经网络算法因为其高速、准确的识别优势,使得很多相关领域的研
传统的Nicolson-Ross-Weir(NRW)方法具有宽频带和高精度的特点,但却存在诸如半波谐振,相角跳变和多值性等问题。其中,多值性问题的主流解决方法存在计算复杂、条件苛刻等问题,在实际使用中有诸多限制。因此,研究一个简易、精确的电磁参数反演方法具有重要的应用价值。本文简述了电磁参数反演的原理,以及目前反演方法的分类及研究现状,针对当前最常用的NRW法及其存在的问题进行深入的分析,提出了一
在生物医学领域,由于电子病历、临床记录、生物医学文献等资源不断飞速增长,信息过载问题变得尤为严重,人们难以从海量文本资源中高效、准确地获取有效信息。文本摘要技术旨在从大量的文本数据中自动提取关键信息,可在一定程度上缓解生物医学领域信息过载的压力。然而,生物医学文本往往包含大量专业术语,现有的文本摘要模型难以充分挖掘并理解专业术语中包含的语义信息,生成的摘要往往存在关键信息遗漏、覆盖不全面等缺陷。针
数感是学生的一种基本素养,是学生在认识数学对象的过程中形成的心智技能,是数学学习的重要结构变量,发展学生的数感也是新课程的基本理念之一。数学教学要使学生经历用数学符号和图像描述现实世界的过程,建立数感和符号感,发展抽象思维。因此,培养学生的数感是数学教学的重要任务。我们教研组对人教版二年级下册"1000以内数的认识"这节课进行了研究和尝试,并在磨课的过程中产生了一些思考。
期刊
为了满足当今社会对复合型、创新型物流人才的需求,高校物流相关专业必须遵循目标导向教育理念(OBE),在新工科背景下,充分考虑多学科的交叉融合,重新设计教学各环节,包括培养方案、课程体系、教学手段、师资能力等方面的更新。文中以武汉科技大学“物流工程+”专业改造举措为线索,阐述了该专业建设改造在以上几个方面的具体措施。
随着新课改理念的实施和科技助力教学的快速发展,传统的教学方式已不能满足当下新时代数学教学的需要。在我国一些经济较为发达地区或者条件较好的学校,电子教学辅助工具与课堂教学日益深度融合,平板电脑不再是仅仅是用于娱乐和办公的电子设备,渐渐成为课堂上学生人手一部的学习工具。这改变了传统的以板书或电子白板为主要呈现知识的媒介的方式,大大丰富了教师在课堂上开展互动的方式方法。数学实验是以实验活动为基础,让学生
学科竞赛对提高学生实践能力和综合素质具有重要作用,高校也认识到学科竞赛的重要性,纷纷开设学科竞赛课程。当下线上教育飞速发展,特别是自去年疫情爆发之后,很多学习活动和学科竞赛也都转向线上开展。而现有学科竞赛相关的在线学习平台普遍是面向个人学习者,较少地考虑到学科竞赛是以小组的形式进行。因此,如何结合互联网技术为竞赛小组提供丰富的在线协作和管理工具,同时结合群组目标和学习者在小组中的角色进行学习资源的
城市化的快速发展使得相关的交通问题日益严重,其中交通拥堵和交通利用率低下的问题尤为突出。交通流预测旨在根据交通网络中的历史数据等信息预测未来的路网状态,有利于用户提前采取有效的应对措施,是解决相关交通问题的重要方法之一,但是交通流数据存在复杂的时空依赖性,同时时空特征之间深度关联且相互影响。因此如何处理具有非线性和动态性的海量交通数据并进行准确的交通流预测,已经成为智能交通领域的一项具有挑战性的工