基于主题模型的新冠肺炎新闻话题挖掘分析

来源 :中央财经大学 | 被引量 : 0次 | 上传用户:hydhdhfdhsdh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
2020年初突然爆发的新冠肺炎严重影响了全球人民的正常生活。至今新冠疫情仍然不断反复,是21世纪以来人来面临的最大公共卫生危机事件。随着互联网技术的发展,在疫情防控的过程中新闻媒体起到的作用受到了专业人士的肯定。新闻传播在稳定民众情绪,引导正确的舆论导向以及帮助维持社会秩序上起到了重要的作用。目前有关新冠肺炎相关新闻的研究还处于初级阶段,主要研究都是通过新闻学的视角来研究媒体舆论导向以及新冠肺炎对于新闻业的挑战,很少有研究集中于新冠肺炎爆发至今重点事件的梳理,对于新冠肺炎新闻进行文本挖掘的研究更是很少。本文爬取了中国新闻网从2020年1月23日新冠肺炎爆发到2021年10月31日共97434篇新闻进行文本挖掘分析。通过文本挖掘找出新闻报道的重点话题并对话题进行热度演化分析,这样既可以帮助公众了解新冠肺炎爆发后的发展轨迹,还可以为新闻从业者报道新冠疫情相关新闻提供参考。针对爬取到的新闻长文本数据,本文先采用Text Rank算法提取关键词并进行描述统计,之后针对关键词建立LDA主题模型和DTM动态主题模型,最后综合描述统计、LDA主题模型和DTM动态主题模型进行主题热度演化分析并得出结论。通过对新闻关键词进行描述统计发现,不同时期新闻数量的多少与同时期疫情的严重程度有很大关系。还发现新闻报道一方面很重视国内突发严重疫情的地区以及大城市的疫情报道,另一方面很重视美、英、法、意等重要国家以及日本、韩国、印度等周边国家疫情的情况。通过建立LDA主题模型并进行分析发现,新闻数据可以分为15个主题,包括5个方面:经济建设、疫情防控、疫情新增、社会民生和医疗研究。其中经济建设分类新闻数量在2020年三四季度明显升高,标志着我国防疫重点逐渐转变为经济恢复与发展。疫情防控与疫情新增分类在新闻报道中一直保持很高的比例,说明疫情不断反复,防疫一刻不能放松。疫情刚刚爆发的时期有关医疗救治和物资援助主题的新闻数量很多,体现了新闻对于疫情严重地区的重点关注。通过建立DTM动态主题模型并同样将新闻分为15个主题进行分析发现,根据主题内容仍然可以将15个主题划分为五个类别,分别为疫情概况、防控措施、医疗研究、经济建设和社会民生。通过动态主题模型计算主题热度并分析发现,因为疫情不断反复,疫情概况和防控措施的主题热度在各个时期都很高。疫情刚刚爆发时,医疗救治主题新闻的热度最高,到了2021年随着疫苗的成功研制和大力推广,医疗研究一直是新闻报道的热点话题之一。2020年三四季度,因为重点转移到经济发展,经济建设新闻热度明显升高;在疫情刚刚爆发时有关民生问题的新闻热度相对也很高。结合描述统计与主题模型进行主题演化分析发现,在疫情刚刚爆发时,新闻报道最重点的话题是对武汉疫情的医疗救治以及对突然爆发的疫情进行防控;时间到了2020年3月,随着新冠肺炎在国外大肆传播,全球疫情新闻的热度快速升高,并且一直是最热门的话题之一;2020年后半年,国内防疫的重点逐渐转为疫情后的经济发展,经济建设相关新闻热度快速升高;2021年随着疫苗的成功研制和大力推广,疫苗的接种一直为2021的热点话题;到了2021年疫情依旧不断反复,疫情新增和疫情防控也始终是新闻的关注点;2021年中期美国、欧洲、印度的疫情相继反弹,加上变异病株的快速传播,全球疫情也一直是新闻报道的热点话题。本文通过对中国新闻网有关新冠肺炎相关的新闻文本进行文本挖掘与主题热度演化分析,不仅可以帮助公众掌握疫情发展的脉络,还可以为新闻从业者对于新冠肺炎相关新闻报道的方向、主题提供更有效准确的参考。
其他文献
互联网的快速发展给智能移动设备的使用提供了极大的便利,智能移动设备的类型以及设备上搭载的应用都有了量的飞跃。由于互联网掀起的短视频之风,基于视频流的应用不断涌出。生活中随处可见的是人们手持移动设备进行拍摄;使用无人机执行拍摄任务;利用可穿戴设备帮助老人识别物体等。近几年,整个社会的表达和创作都在视频化,智能移动设备对于视频流的识别任务需求量正在急剧增加。目前,通常会使用深度神经网络来处理连续视频流
学位
妆容迁移是计算机视觉领域前沿的热点研究方向,属于风格迁移与人脸图像处理的范畴,旨在将任意目标妆容迁移到指定人脸图像上。妆容迁移不仅包括人脸对齐与色彩迁移等工作,而且要考虑到不同人脸的光影以及纹理差异。大量学者对妆容迁移问题展开研究,已经取得了一定成果,但依然存在着一些挑战。如迁移模型难以同时应对风格差距较大的妆容迁移;算法对图像质量要求较高,阴影、遮挡以及姿态表情的差异会降低妆容迁移的质量;图像的
学位
我国在20世纪末就已进入人口老龄化社会,并且在最近几年我国人口老龄化的程度进一步加重,已经开始呈现出超前于经济发展的趋势。人的身体状况会随着年龄的增长而下降,受年老、疾病、意外等因素的影响,我国失能失智老人的数量也在随着老年人口的增加而不断攀升。失能失智老人的增加不论是给社会还是家庭都带来了较大压力,因此有必要建立符合我国国情的长期护理保险制度,为失能老人提供长期护理服务来满足他们对生活的需求,进
学位
在无人车应用问题的研究中,如何高效且安全地为无人车规划路径一直是一项热门且充满挑战的研究内容。传统的无人车路径规划算法主要包括全局路径规划算法和局部路径规划算法。其中,全局路径规划算法通过预先处理场景中静态障碍物信息,为无人车规划避障导航路径;局部路径规划算法通过无人车的激光雷达传感器或红外线传感器等接收装置读取地图场景中的动态障碍物信息,实时为无人车提供避障路径规划。随着人工智能领域科学技术的发
学位
中国已经进入了深度的老龄化社会,老人的赡养保障也成为了中国亟待解决的重难点问题。2021年,“十四五规划”明确提出:“要发展多层次、多支柱养老保险制度体系。”要在我国社会救助兜底、第一支柱基本养老金维持基本生活的基础上,大力建设企业年金与职业年金,发挥其补充保障作用。但现阶段,我国企业年金覆盖范围狭窄、参与率低下,这也导致企业年金平均养老金替代率比较低,距离目标替代率较远。因此现阶段,对企业年金养
学位
近年来,凭借着对数字技术的灵活运用,互联网金融公司为客户提供第三方支付、线上理财、线上存贷款等创新的金融服务和金融产品。这些互联网金融产品和服务凭借着低门槛、方便快捷的特点,迅速完成了客户的积累和规模的扩张,对商业银行的业务产生直接或者间接的竞争。在传统的金融体系中,商业银行是金融市场上资金的供给者,因此在金融市场有着垄断的地位。互联网金融企业则打破了商业银行原本在金融市场的垄断地位,对银行业造成
学位
我国人均收入水平不断提高,仍然存在收入差距过大的问题。改革开放以来,我国居民人均可支配收入实现二十年翻三番,城镇新增就业人口连续7年超过1300万人,832个贫困县和12.8万个贫困村全部摘帽,现行标准下近1亿农村贫困人口全部脱贫,建成了世界最大的社会保障网,社会保障建设取得新成效。但也必须清醒认识到,我国中等收入群体的比重仍旧偏低,收入结构仍偏重“哑铃”型,且收入分配不均现象长期存在,收入差距依
学位
逻辑回归作为一种模型解释度高的分类算法,经常运用于很多领域中,可以得到很好的效果。不过,传统的逻辑回归在处理高维的且变量间相关性很强的数据时,效果不尽如人意。学者们提出过多种解决办法,正则化是其中效果较好的一种方法。本文拟采取正则化的方法,提出双权重弹性网-逻辑回归多步筛选算法。将一范数自适应权重、二范数相关性权重、多步迭代等思想引入逻辑回归模型的正则化惩罚中,实现逻辑回归在高维数据下获得稀疏解并
学位
社交媒体数据的体量随着网络技术的发展得到了飞速增长,而社交数据能够真实反映用户的心理、情绪等信息,除此之外对一些有害信息进行及时鉴别也是十分必要的。而随着移动设备的发展,越来越多的用户选择在社交媒体上分享自己的视频、图像、音频等数据,社交媒体数据已经呈现多模态化的趋势。然而对多模态数据进行分析仍然存在许多问题,主要包括了模态间数据表现形式不统一的问题以及模态间表征内容不统一的问题。受限于模态间数据
学位
随着计算机及其相关技术的发展,如何将数字化与文物研究更好地结合是很多研究者关注的热点问题。工业CT技术能够在不损伤文物的前提下得到文物的内部信息,通过这些信息可以实现文物的三维建模。基于CT断层图像进行三维建模的常用方法是面绘制算法和体绘制算法。本文主要基于面绘制的切片级重建算法展开研究,从轮廓对应、轮廓分支和轮廓拼接三个方面展开讨论。针对轮廓对应和分支存在多义性与不确定性问题以及轮廓拼接存在准确
学位