面向热点事件的社交媒体情感演化分析系统实现

来源 :西北民族大学 | 被引量 : 0次 | 上传用户:pzchh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社交媒体拥有海量用户,是一种具备便捷、活跃、实时以及交互特点的社交应用。微博是国内社交媒体中最典型代表,已成为众多热点事件传播的集散地,成为网民对社会现象表达意见和分享情感的场所。本文对特定主题事件的相关信息进行采集,了解网民对热点事件的看法及其情感倾向,分析事件演化过程,使政府及时掌握时态和舆论发展,帮助引导舆论向着积极方向发展。本文研究工作包括以下内容:1)微博平台数据采集及预处理。本文以新浪微博平台为采集对象,采用网络爬虫技术按照关键词、特定用户、特定微博ID搜索等策略获取数据,采集一定时间段内的博文和评论数据,并采集到原始数据进行过滤清洗、去停用词、分词、标注等操作,为后续任务奠定基础。2)主题挖掘,发现热点事件。本文针对处理过的博文数据,进行主题聚类,提取相关热点事件。将广义波利亚坛子模型与主题模型融合,提出基于语义强化的概率主题模型。构建自编码网络训练博文数据,获取博文语义嵌入表达信息,利用广义波利亚坛子模型将词汇-词汇和短文本-主题语义强化,放入主题模型,聚类出相关关键词,确定最优主题,提升语义连贯性,更好发现多个具有代表性的热点事件。3)情感分析,分析网民情感倾向。本文选取“李云迪涉黄事件”作为实例,对部分事件数据进行情感分析。通过改进文本特征处理方式,提出一种串行混合网络短文本情感分类算法(BERT-CNN-Bi LSTM-ATT),利用预训练模型获取词汇动态向量,混合网络提取短文本局部与全局特征,分析网民观点的情感分布。实验证明,该算法解决微博短文本稀疏问题,特征处理高效全面,提升情感分类效果。4)演化系统,直观描述事件、情感演化趋势。选取“李云迪热点实例”,基于上述研究方法实现系统,从事件、情感两个角度展开。系统利用生命周期理论划分事件生命周期,结合主题发现和情感分析法,按规则计算不同情感值,分析热点事件的脉络和情感演化过程,进行可视化展示,详细描绘该事件情感演化过程。
其他文献
随着语音识别技术的快速发展,端到端语音识别框架已经成为主流。但是,这种框架需要大量的标记数据进行训练,这对于低资源语言情况下是非常困难的。为了解决低资源语言训练不足导致模型性能下降的问题,本文基于半监督语音识别方法在藏语数据上开展了研究。主要的工作如下:(1)基于半监督学习方法的藏语语音识别研究。本文首先使用藏语数据训练基线模型,以确保半监督模型的可靠性。然后,利用半监督学习方法,充分利用无标签数
学位
随着互联网的普及,在网上欣赏和学习舞蹈成为一个必不可少的途径。然而,由于舞蹈视频网站的快速发展,信息过载的问题也日益突出。因此,在这种情况下,使用推荐系统来进行舞蹈推荐是一个有效的解决方案。深度学习技术作为一种有效的工具,可以解决传统推荐模型中的复杂特征提取和特征交叉问题。越来越多的研究开始重视召回阶段的重要作用,从而提升推荐系统的效率。因此,把推荐系统划分为召回和排序两个阶段,以期望在短时间内,
学位
肺栓塞是由各种栓子堵塞肺动脉而引发的肺部呼吸类疾病,由于其临床表现不明显,致使患者漏诊、误诊率较高。肺栓塞疾病具有较高的致死率,严重危害人们的身体健康,因此,对该疾病的早期诊断具有重要意义。SPECT肺灌注图像是目前诊断肺栓塞等肺部疾病常用的无创性检查手段,然而由于肺灌注图像存在空间分辨率低、个体差异大、显像区域边界模糊等问题,给肺栓塞疾病的诊断及定量分析带来了挑战。对于上述问题,面向SPECT肺
学位
大数据时代,短视频平台在社会生活中的占比越来越大,其内容涉及到社会新闻、文化娱乐以及电商营销等多个方面,短视频用户数量呈指数级增长。基于短视频平台,大量用户对各种各样的短视频自由发表自己的意见与看法,产生了海量的文本评论数据。对短视频文本评论数据进行话题检测和情感分析研究,可以在一定程度上正确引导社会舆论,了解民生民意,为商业营销计划和政府相关管控措施的制定提供一定的参考价值。本文主要工作分为以下
学位
近年来,随着深度学习技术的不断进步,语音识别技术也在快速发展。目前,语音识别声学建模有两种框架:混合架构和端到端架构。端到端架构通过单一网络对目标函数进行训练和优化,避免了混合架构的模块化设计和独立性假设,具有联合优化和易于部署等特点。但端到端架构也存在两个问题:一是需要大量标注数据,二是噪声和方言问题。这两个问题会极大限制缺乏语音标注数据的低资源语种语音识别发展。本文针对端到端架构的这两个关键问
学位
随着人工智能的蓬勃发展,生物特征识别技术如面部、虹膜、指纹和语音等在我们日常生活中也得到了广泛的应用。其中特别是人脸识别技术和说话人识别技术,它们有着高用户接受度且取样成本较低的优势,在各个移动设备上的使用也变得很常见。但是在实际应用中,视听识别很容易受到现实世界里各种复杂场景的影响,如综艺、采访、唱歌、电影和电视剧等。它们包括有说话人识别中的多人混合说话、远近场导致的声音不清晰和环境噪声等问题,
学位
机器阅读理解作为智能问答技术的全新方法,让机器解析用户输入的问题,理解用户意图,通过机器阅读理解模型从文章中快速、准确地检索并查找到细粒度的答案片段。它能为广大用户提供一种高效的答案检索方式,被广泛应用到百度搜索、自动问答机器人、智能客服机器人等场景,具有良好的发展前景和应用价值。随着机器阅读理解中/英文数据集种类增加、复杂度的扩大化以及硬件图形处理器算力的大幅提升,机器阅读理解系统逐渐由传统浅层
学位
随着移动互联网的高速发展,人们也逐步由信息获取困难转变为信息过载,为了方便人们高效的获取有用信息,推荐算法应运而生。视频推荐系统作为视频平台的标准配置已广泛应用,但仍存在以下问题:视频特征未能全面的提取,例如评论,标题,简介;弹幕文本信息未得到充分利用并融入视频推荐中;视频内容与用户的兴趣喜好关联计算不足等影响推荐效果。本文针对视频推荐中存在的问题提出了融合多特征的弹幕视频推荐算法,主要研究工作如
学位
步入数字化时代,数字化的发展催生了数字经济,全方位助力社会的发展。数字经济成为经济增长的新引擎,也成为我国创新发展的新势能。“十四五”规划中提出,要促进数字技术与实体经济深度融合、推动数字经济和实体经济深度融合。在此时代背景下,本文聚焦企业数字化发展,探究制造业企业数字化水平、创新绩效与全要素生产率之间的关系具有重要的理论和实践意义。基于此,本文选取2012年-2020年A股制造业企业作为研究对象
学位
单光子发射计算机断层扫描(Single Photon Emission Computed Tomography,SPECT)借助单光子核素标记物实现全身骨骼形态和代谢的显像,通过发现病变部位的异常放射性浓聚或稀疏缺损实现疾病的无创检测,目前已成为诊断恶性肿瘤骨转移的首选方法。受限于成像技术和成像设备,SPECT骨扫描图像往往具有分辨率低,病灶区域边界模糊等缺点,使得医师诊断工作耗时、效率低并且伴随
学位