“新冠”疫情初期基于微博的情感分析

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:zl168
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文的研究内容是基于微博短文本的情感分析。情感分析属于自然语言处理中文本分类的一个重要方向。本文数据来自于Data Fountain平台采集的新浪微博关于“新冠肺炎”主题的微博10w条文本数据,经过人工标注文本情感倾向为消极、积极和中立。实证部分分别采用了词典情感分析法和机器学习分析法,采用的算法分别有基于TFIDF的支持向量机和朴素贝叶斯两种以及基于wod2vec的支持向量机和LSTM,并将五种结果进行对比,结合统计分析方法以及事件的发展对疫情初期的网络反应进行舆情分析。首先,本文基于情绪词典计算文本情感得分。然后,使用了传统文本表示和特征选择方法TFIDF(逆文本文档)以及传统机器学习算法支持向量机和朴素贝叶斯进行文本分类,由于维度爆炸导致的向量稀疏,分类效果很不理想。因此,后面使用word2vec算法训练的词向量和文档向量来进行文本表示,分类结果得到较大的提升;在此之后,使用神经网络中的LSTM对该文本数据集进行分类,并且对以上各种方式实现的结果使用统计指标进行评估。本文首次使用机器学习算法结合统计分析对时事进行实时地舆情分析,该方向对于国家政策出台以及实施都会有重要意义。
其他文献
在当今互联网时代,智能手机的使用越来越普及,移动APP广告因为其移动、互动和受众面广等特性受到很多人的青睐,成为互联网广告领域的重要分支。一般地,可以用广告点击率来看某条广告投放效果的好坏,但对于广告主而言,转化率与其收益有着更直接的关系,因此,对广告转化率预估的研究有着很强的实际应用价值。但由于数据高度稀疏等原因导致目前对广告转化率预估的研究效果没有很好。根据以上描述的情况,本文通过对用户、广告
学位
改革开放政策使我国经济高速发展,而人口流动对经济增长的贡献率高达20-30%,流动人口是我国劳动力需求的主力军。对于流动人口问题,当务之急就是要加强流动人口的职业健康和家庭发展,促进流动人口社会融合。在劳动力迁移过程中个人的居留意愿可以体现个人以及每户家庭在流入地的基本生活状态。本文通过关注劳动力迁移过程中劳动力的个人因素:性别、年龄、教育年限、户籍类型、社会满足感等,研究得出劳动力迁移过程中居留
学位
近年来,互联网金融的飞速发展对商业银行的信用卡业务造成了重大冲击。而信用卡业务已成为零售银行业务的主要利润来源。保持客户忠诚度对当前遭受互联网金融入侵的信用卡业务而言具有深远意义。目前学术界对客户忠诚度的实证研究主要是在特定行业背景下研究客户忠诚度的影响变量;对客户忠诚度预测问题的研究主要集中于不同忠诚度模型的探索上。但是所用数据基本是问卷调查数据或者数据的时间跨度较小(比如一个月),对于时间跨度
学位
近年来,地铁成为居民出行的主要交通工具。随着地铁线路的不断完善发展,地铁客流量不断增加,这容易造成地铁站客流拥堵,不利于居民出行及地铁运营管理。因此实现对站点客流量的短期预测能够帮助优化地铁运营管理,保障市民安全出行。本文收集杭州市AFC系统的所有地铁站刷卡数据信息,对数据进行处理后建立短期客流量预测模型。本文首先进行数据处理,将原始数据转化为各站点每十分钟客流量数据,并从站点和时间两个方面对客流
学位
近年来,随着我国金融市场的不断发展和创新以及社会融资需求的不断增加,影子银行作为商业银行的有效补充迅速扩张,成为金融体系的重要组成部分。影子银行的出现虽然一定程度上满足了社会资金需求,但其本身具有的特性也成为重要的金融风险来源之一,因此,防范影子银行引发的系统性风险非常有意义。本文通过构建影子银行风险预警线和风险预警模型来对影子银行的风险状况进行预测,辅助相关部门的防范措施制定。本文再对前人的研究
学位
随着互联网的普及,移动应用和电子支付技术的不断发展,电子商务突破了时间和空间的限制。消费者能随时随地消费的同时,也期待更优质的购物体验和个性化服务。现下常见的电商营销手段如发放优惠券和商品推荐都是基于消费者在线行为数据分析得到的。通过分析用户的历史行为数据,精准预测购物意向,能进一步为消费者提供有针对性的高质量服务,促使其消费进而提高购买转化率。因此如何有效利用消费者行为数据,分析其购物需求是所有
学位
纵向数据和生存数据在医学随访领域广泛存在。当纵向数据和生存数据同时存在时,若忽略两类数据之间的联系而单独建模,往往会导致参数估计出现偏差。联合模型利用两者的潜在联系进行联合建模,可以减少偏差,并能同时研究事物的纵向发展进程和个体生存概率与结局。阿尔茨海默症(AD)的发展过程分为三个阶段:没有症状的早期阶段,轻度认知障碍(MCI)阶段,最后是AD确诊阶段。MCI是AD重要的过渡阶段。使用联合模型来研
学位
近年来,以个人信贷为主导的消费金融行业发展迅猛,但随之而来不断攀升的逾期率也逐渐成为其不可忽视的痛点问题。本文通过对某消费金融平台的用户信息及交易记录进行分析,从违约用户与未违约用户总体的内在分布出发,构建了一个有效的风险违约预测模型,并与其他模型进行比较,说明了提出模型的有效性。首先在数据描述分析的基础上,发现数据中存在不均衡分布的特性。然后采用方差分析的方法,发现违约用户与未违约用户总体的均值
学位
历史街区是一个动态的城市遗迹,它记录着城市的过去、现在及展望着未来,它有着一个城市的历史文化记忆。过去由于传统的商业模式固化及现代化建设的需要,对历史街区进行大规模拆建,街区资源遭到巨大的破坏,也很多历史街区失去了原有的活力,历史街区的环境品质急需进一步的提升。时代在不断的发生变化,对于历史街区的环境提升随着时代变化而变化,是一个持续性的过程。所以,对于历史街区环境的提升设计,我们需要寻找新的理论
学位
西方有一句名言:鸡蛋不要放在同一个篮子里。这句话在金融学中的意思是通过一揽子分散投资组成的投资组合达到分散风险的目的。如何选择投资组合中成分资产的种类及成分资产的权重,使该投资组合带给投资者最大的收益率或者面临最小的风险是十分重要的问题。本文通过对样本股票平均收益率时间序列的正态性检验,可以得知我国证券市场的股票收益率时间序列大多存在尖峰厚尾的现象,并不符合正态分布的假设,因此国内许多建立在这一假
学位