论文部分内容阅读
计算传播的研究目标是分析人类社会错综复杂的信息传播行为和互动关系。在传统媒体时代,社会信息传播的数据挖掘高度依赖于研究者的经验观察及小规模统计分析。信息技术革命的迅猛发展将人们带入大数据和智能媒体时代,海量的社交媒体数据因此成为洞察社群传播行为的重要窗口。大规模网络传播数据挖掘依赖于智能化计算技术的发展,也因此诞生了计算传播学这一新兴交叉学科领域。然而现有的计算传播研究或者基于特定主题数据的挖掘分析,缺乏模型和方法的沉淀;或者基于泛化数据集的方法构建,缺乏对数据内涵及更深层社会意义的洞察。本论文的研究结合这两类研究优势,一方面通过数据挖掘技术对社会传播数据展开预分析和规律挖掘,并结合传播学理论进行阐释;另一方面基于传播规律分析进行模型方法的构建,从而赋予这些经验性的社会知识以模块化、具体化、可积累、可发展等科学知识的特点。通过融合经验性观察、传播学理论及数据挖掘技术,围绕计算传播中“传播者—传播内容—传播网络”三个相互关联的核心部分,尝试推动计算传播方法范式的建构。本研究的主要工作和贡献体现在三个主要方面:第一个方面的贡献体现在对计算传播中传播者特征学习的推进,具体包含两个部分的工作。首先,提出基于社交媒体数据的传播者画像特征,以描述计算传播研究中的传播者。以Twitter为代表的社交媒体已经吸引海量用户参与社会热点话题的讨论与传播,然而现有关于话题传播者的特征研究仍然局限在浅层次的文本统计特征挖掘,缺乏对图像信息的利用,以及对深层次的传播者人格特征的描述。本研究提出了基于社交媒体数据的传播者画像特征。分析结果显示,头像内容与历史文本推理出人格特质存在明显关联,大五人格模型和PAD模型的内部特征分布均存在一定的关联性。该特征分析是后续活跃传播者预测模型的关键组成部分。其次,建构基于机器学习的活跃传播者预测模型,以预测传播者参与状态。社交媒体中用户行为态度的研究在舆情管理领域具有重要价值。然而现有研究多倾向于通过文本情感分析来评估参与者观点态度,而较少有从参与者活跃度的视角切入,即“什么样的参与用户更有可能成为活跃的传播者?”对此,本研究首先明确了问题定义,将用户活跃程度的预测构造为一个二分类任务。在所构建的传播者画像基础上生成用户特征。针对社交媒体数据具有稀疏且极度不平衡的特点,本研究还对比了不同机器学习分类器在几种经典的不平衡样本处理方法上的效果。实验结果显示,通过Ferguson事件样本训练的加权随机森林分类器能够有效地预测NYC事件中的活跃用户,预测结果的AUC值在0.8392左右。第二个方面的贡献面向计算传播中的传播内容分析,针对单独使用文本内容难以准确估计社会心态测量的问题,综合运用自然语言处理分析方法,结合文本内容与社会网络特征,建构深层次社会心态的测量和分析框架。社会心态测量分析是计算传播内容研究的一个关键问题。本文工作建立在中文数据采集的基础之上,所运用的相关方法包括关键词提取、LDA主题聚类、文本网络和文本情感分析。不同于以往研究,本文研究中引入社会科学分析理论与方法,形成了一些基于社会理论的可解释的研究发现,比如:通过对信源地的社会网络分析,发现了不同城市在相似境况下处于网络中的不同位置;通过LDA主题分析呈现了不同城市的社会话题分布;通过机器学习的情感分析,发现了城市之间在情感倾向上的差异;通过引入情绪词典,呈现了焦虑情绪之间的话语关联。通过结合传播文本分析和社会网络方法,本文发现社会心态测量可以被更为精确估计。第三个方面的贡献对计算传播中传播网络动力模型的创新研究。社会网络中的传播规律分析是计算传播研究的核心。本文分别从个体网络的传播动力和社群网络的传播动力两个角度展开研究。首先,构建社交媒体个体网络数据驱动的高斯时空混合模型,以预测社会传播网络中特定话题的传播趋势。社交媒体的话题传播具有动态、随机、不确定、多噪音的特点,预测话题传播趋势因此成为一项有挑战的任务。研究所使用的数据集是新冠肺炎危机期间包含2.06亿条Twitter数据的最大仇恨数据集COVID-HATE的子集,研究通过Twitter API随机采样了6,548,325个用户样本ID及其地理位置标签,并进一步收集了相关用户信息和推文信息。本文建构了一个面向社交媒体数据流中仇恨言论走势分析的高斯时空混合模型(GSTM),该模型相比经典的时间序列模型,额外度量了用户粉丝数和发帖量之间的时间和空间关系,从而求得时空转化率用于趋势预测。研究测试了所提模型与经典的时间序列预测模型的残差均值和均方根误差,结果显示GSTM模型具有最优预测效果,可以被应用于社会公共突发事件预测。其次,构建面向跨社群网络传播的评价指标及问题范式,综合对比多种不同启发式优化方法的求解性能。基于个体网络传播面临“信息茧房”等社群壁垒难题。本文接下来以社群为单位,提出跨社群传播的优化方案,在现有的信息传播最大化问题基础上,引入网络社群信息将“破除信息茧房”这一棘手社会问题构建为网络跨社群传播最大化问题。针对跨社群传播效果评价标准尚不明确的难点,提出基于Shannon-Weaver指数的跨社群传播效果评价指标,用来评估信息跨社群传播的多元化程度。通过线性加权的方式,将面向跨社群传播的多目标传播优化问题转化为单目标优化问题,并对比多种不同的启发式和元启发式方法在求解这类问题时的时空复杂度。最后,基于仿真实验测试不同方法的性能,验证各类方法的效率和求解质量,得到最适合的求解方案。在社会传播环境下,传播者研究、传播内容研究、传播网络动力模型研究揭示了整个传播系统中各环节之间的关系,对理解社会运行中的传播机制具有启发意义。上述三个方面的研究均结合了传播学理论和计算科学方法,这些互为的知识和方法共同构成了计算传播研究的重要内容。