基于社交媒体数据挖掘的计算传播研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:liuzengyong1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
计算传播的研究目标是分析人类社会错综复杂的信息传播行为和互动关系。在传统媒体时代,社会信息传播的数据挖掘高度依赖于研究者的经验观察及小规模统计分析。信息技术革命的迅猛发展将人们带入大数据和智能媒体时代,海量的社交媒体数据因此成为洞察社群传播行为的重要窗口。大规模网络传播数据挖掘依赖于智能化计算技术的发展,也因此诞生了计算传播学这一新兴交叉学科领域。然而现有的计算传播研究或者基于特定主题数据的挖掘分析,缺乏模型和方法的沉淀;或者基于泛化数据集的方法构建,缺乏对数据内涵及更深层社会意义的洞察。本论文的研究结合这两类研究优势,一方面通过数据挖掘技术对社会传播数据展开预分析和规律挖掘,并结合传播学理论进行阐释;另一方面基于传播规律分析进行模型方法的构建,从而赋予这些经验性的社会知识以模块化、具体化、可积累、可发展等科学知识的特点。通过融合经验性观察、传播学理论及数据挖掘技术,围绕计算传播中“传播者—传播内容—传播网络”三个相互关联的核心部分,尝试推动计算传播方法范式的建构。本研究的主要工作和贡献体现在三个主要方面:第一个方面的贡献体现在对计算传播中传播者特征学习的推进,具体包含两个部分的工作。首先,提出基于社交媒体数据的传播者画像特征,以描述计算传播研究中的传播者。以Twitter为代表的社交媒体已经吸引海量用户参与社会热点话题的讨论与传播,然而现有关于话题传播者的特征研究仍然局限在浅层次的文本统计特征挖掘,缺乏对图像信息的利用,以及对深层次的传播者人格特征的描述。本研究提出了基于社交媒体数据的传播者画像特征。分析结果显示,头像内容与历史文本推理出人格特质存在明显关联,大五人格模型和PAD模型的内部特征分布均存在一定的关联性。该特征分析是后续活跃传播者预测模型的关键组成部分。其次,建构基于机器学习的活跃传播者预测模型,以预测传播者参与状态。社交媒体中用户行为态度的研究在舆情管理领域具有重要价值。然而现有研究多倾向于通过文本情感分析来评估参与者观点态度,而较少有从参与者活跃度的视角切入,即“什么样的参与用户更有可能成为活跃的传播者?”对此,本研究首先明确了问题定义,将用户活跃程度的预测构造为一个二分类任务。在所构建的传播者画像基础上生成用户特征。针对社交媒体数据具有稀疏且极度不平衡的特点,本研究还对比了不同机器学习分类器在几种经典的不平衡样本处理方法上的效果。实验结果显示,通过Ferguson事件样本训练的加权随机森林分类器能够有效地预测NYC事件中的活跃用户,预测结果的AUC值在0.8392左右。第二个方面的贡献面向计算传播中的传播内容分析,针对单独使用文本内容难以准确估计社会心态测量的问题,综合运用自然语言处理分析方法,结合文本内容与社会网络特征,建构深层次社会心态的测量和分析框架。社会心态测量分析是计算传播内容研究的一个关键问题。本文工作建立在中文数据采集的基础之上,所运用的相关方法包括关键词提取、LDA主题聚类、文本网络和文本情感分析。不同于以往研究,本文研究中引入社会科学分析理论与方法,形成了一些基于社会理论的可解释的研究发现,比如:通过对信源地的社会网络分析,发现了不同城市在相似境况下处于网络中的不同位置;通过LDA主题分析呈现了不同城市的社会话题分布;通过机器学习的情感分析,发现了城市之间在情感倾向上的差异;通过引入情绪词典,呈现了焦虑情绪之间的话语关联。通过结合传播文本分析和社会网络方法,本文发现社会心态测量可以被更为精确估计。第三个方面的贡献对计算传播中传播网络动力模型的创新研究。社会网络中的传播规律分析是计算传播研究的核心。本文分别从个体网络的传播动力和社群网络的传播动力两个角度展开研究。首先,构建社交媒体个体网络数据驱动的高斯时空混合模型,以预测社会传播网络中特定话题的传播趋势。社交媒体的话题传播具有动态、随机、不确定、多噪音的特点,预测话题传播趋势因此成为一项有挑战的任务。研究所使用的数据集是新冠肺炎危机期间包含2.06亿条Twitter数据的最大仇恨数据集COVID-HATE的子集,研究通过Twitter API随机采样了6,548,325个用户样本ID及其地理位置标签,并进一步收集了相关用户信息和推文信息。本文建构了一个面向社交媒体数据流中仇恨言论走势分析的高斯时空混合模型(GSTM),该模型相比经典的时间序列模型,额外度量了用户粉丝数和发帖量之间的时间和空间关系,从而求得时空转化率用于趋势预测。研究测试了所提模型与经典的时间序列预测模型的残差均值和均方根误差,结果显示GSTM模型具有最优预测效果,可以被应用于社会公共突发事件预测。其次,构建面向跨社群网络传播的评价指标及问题范式,综合对比多种不同启发式优化方法的求解性能。基于个体网络传播面临“信息茧房”等社群壁垒难题。本文接下来以社群为单位,提出跨社群传播的优化方案,在现有的信息传播最大化问题基础上,引入网络社群信息将“破除信息茧房”这一棘手社会问题构建为网络跨社群传播最大化问题。针对跨社群传播效果评价标准尚不明确的难点,提出基于Shannon-Weaver指数的跨社群传播效果评价指标,用来评估信息跨社群传播的多元化程度。通过线性加权的方式,将面向跨社群传播的多目标传播优化问题转化为单目标优化问题,并对比多种不同的启发式和元启发式方法在求解这类问题时的时空复杂度。最后,基于仿真实验测试不同方法的性能,验证各类方法的效率和求解质量,得到最适合的求解方案。在社会传播环境下,传播者研究、传播内容研究、传播网络动力模型研究揭示了整个传播系统中各环节之间的关系,对理解社会运行中的传播机制具有启发意义。上述三个方面的研究均结合了传播学理论和计算科学方法,这些互为的知识和方法共同构成了计算传播研究的重要内容。
其他文献
背景:多因素多步骤的病理演化导致的膀胱癌(BC),是常见的泌尿系肿瘤之一,其发生既受内在的遗传因素制约,也受外界环境因素制约。目前已知吸烟和生化物质接触等因素是最常见的外界影响因素。内在的遗传因素主要是膀胱抑癌基因和/或致癌基因异常表达导致黏膜尿路上皮细胞癌变。随着医疗科技飞速发展,膀胱癌诊疗已经取得了巨大进步,但仍然面临着许多棘手问题,膀胱癌高发病率、复发率、转移率等问题仍旧没有从根本上得到解决
学位
随着大功率、紧凑型电子器件以及能源系统的迅速发展,电容器小型化及轻量化的需求日益迫切,因此研制高储能密度的电介质具有重要意义。在众多聚合物中,聚偏氟乙烯基铁电材料由于高介电常数以及优良的加工性被认为是制备高储能密度电容器的理想材料。然而,其高固有损耗以及低击穿强度限制了储能密度的进一步提高。为解决这一问题,本文通过设计纳米材料以及聚合物基体的微观结构,并利用全有机复合或原位合成技术解决了传统纳米复
学位
电网换相换流器是高压直流输电系统的核心设备,其承担着交直流转换的功能。然而,在实际工程运行中,换流阀设备损坏和换流器闭锁事件时有发生,准确可靠地提取换流器故障特征对提升换流器保护可靠性具有重要意义。因此,本文围绕提升换流器自身安全和系统稳定运行的重大需求,针对端口电流差流特征对故障检测和故障定位的不足,提出从换流阀本身出发,综合利用换流器端口电流幅值和时序特性与换流器各阀状态的内在联系,构建了换流
学位
在5G Sub-6 GHz基站系统中,移动通信运营商普遍采取多频段混合组网的方式,为此需要将4G/5G基站天线一体化集成设计,即不同制式不同频段的天线单元高密度集成在同一阵列。然而,在密集排布的多频基站天线阵列中,相邻的异频天线单元在彼此工作频段内存在较强的干扰,导致天线端口隔离度恶化和方向图畸变的问题。为了解决这两大问题,本文提出基于滤波天线和透波天线技术的异频自隔离方法。通过在天线设计中融合滤
学位
宇称-时间(Parity-Time,PT)对称无线电能传输技术在强耦合区域,输出功率、效率与耦合系数无关,可以实现恒功率、恒效率运行。然而,当传输距离超出强耦合区域或大于临界传输距离时,PT对称无线电能传输技术的传输效率随耦合系数减小迅速下降,制约了传输距离的进一步提高。为此,本文为提高PT对称无线电能传输距离,以拓宽其应用范围,在深入分析影响PT对称无线电能传输距离因素的基础上,系统地探讨了提高
学位
在数字经济时代下,数据作为关键的生产要素,蕴含着重要的知识与信息。为了从大量的数据中挖掘出具有价值的知识信息与潜在规律,对数据进行自动化分类已经成为机器学习领域的研究热点。在模式识别与机器学习的许多实际应用中,如生物信息学、基因微阵列分析、图像识别、文本分类等都面临着高维数据的分类问题。复杂的高维数据包含着大量的噪声和冗余特征,这不仅增加了对数据的存储开销,还增加了构建分类模型的复杂度。同时,高维
学位
实际物理系统受环境影响、部件故障、执行器失效等因素,结构和参数会发生随机突变。作为一类含有多个子系统和服从马尔科夫过程跳变律的混杂系统,马尔科夫跳变系统可以准确地描绘这种现象。对此,在过去的几十年里马尔科夫跳变系统得到深入研究并广泛应用于航空航天、电力系统、工业互联网等领域。同时,在网络环境中,相比于传统的周期采样策略,事件触发机制(event-triggering scheme,ETS)能够在保
学位
随着无线网络与传感器技术的发展与进步,各种集计算、通信和感知能力于一体的智能移动设备在人们日常生活中越来越普遍,同时也衍生出很多新兴技术。移动群体感知作为其中最有影响力的技术之一,它将感知任务众包给一群持有智能移动设备的人,利用群体的智慧实现对任务数据的收集与分析,并对有用信息进行提取以完成任务。与传统无线传感网络相比,移动群体感知具有高灵活性、低成本、高扩展、应用广范和数据丰富等优点,这促使移动
学位
得益于无线通信技术的快速发展和智能终端设备的广泛应用,参与式感知在大规模移动人群中成为可能。移动群智感知以众包的形式将大规模的感知任务分散外包给拥有移动智能设备(如智能手机、平板电脑、智能可穿戴设备、车载设备车辆)的普通用户,利用群体智能和嵌入移动设备的传感器作为基本感知单元,通过物联网和无线通信传感器网络完成感知任务,收集和聚合的感知数据用于提取分析,并提供个性化服务,从而实现大规模、深度的社会
学位
在科学计算、数学理论与实际工程问题中,存在着大量需要实时计算的时变问题,譬如时变优化决策、经济调度、投资组合优化、机器人运动规划等等。而如何设计并构建稳定、快速、准确、抗扰动、易实现且计算能力强的实时时变问题求解方案,一直以来都是该领域众多研究人员努力探究的方向之一。传统的数值计算方法由于计算复杂度高、迭代计算频次多且大多针对时不变问题,在时变问题的解析过程中往往需要花费更多的计算速度与计算资源。
学位