论文部分内容阅读
社交网络信息流行度是热点事件受关注程度的量化指标。广大网络用户通过在线社交网络发布和转发信息,表达对社会热点事件的立场和态度,推动了信息的传播和流行。流行度能够反映网络舆情发生、发展状态。网络舆情能够影响广大网络用户的思想和行为,并可能引发公共安全事件。在社交网络分析需求快速发展的今天,研究流行度预测方法有助于提高网络舆情预测能力,对于实现良好的社会舆论氛围和保障社会公共安全具有重大的现实意义。然而,现有的流行度预测方法距离能够在舆情治理中得到应用还面临着一些挑战,其中既包括庞杂的社交网络大数据为上层流行度分析应用带来的数据表示与组织难题,又包括现有流行度演化预测研究对社交网络特有的演化规律和影响因素考虑不足带来的局限性。本文围绕“面向流行度演化预测的社交网络大数据表示与组织问题”、“流行度演化高峰期预测问题”和“多因素指标的流行度预测问题”三个关键问题,从面向流行度分析与预测的社交网络热点事件库模型、基于社交网络主题标签的流行度高峰期预测、基于社交网络事件库多因素耦合的流行度预测和流行度分析预测平台实现及应用四个方面开展了研究,主要工作和贡献如下:首先,针对利用海量、庞杂的在线社交网络大数据分析和预测信息的流行度演化态势中的数据表达与组织问题,构建了社交网络热点事件库模型。分析了社交网络大数据的多维性,建立了数据模型,包括定义的实体与属性、数据约束和约束检查及查询等组成部分。在此基础上,设计了基于社交网络热点事件库的时间序列提取方法。实验表明,社交网络热点事件库模型中的数据约束检查方法性能良好,所提出的基于热点事件库的时间序列提取方法与人工提取方法相比在准确率和召回率等方面有更好的表现,并且通过启用约束检查方法能够进一步提高表现。其次,针对基于历史流行度指标的信息流行度演化分析与预测问题,基于真实在线社交网络数据分析了流行度的演化规律,提出了一种流行度演化的高峰期预测方法。通过Twitter数据集的实证研究,发现自演化开始以来,流行度通常在其演化的早期达到顶峰。在此基础上,提出流行度高峰期预测方法,综合利用了三种类型的数据资源,通过采用LSTM和DeepWalk等嵌入算法进行多维矩阵转换,应用平均池层进行特征表示,学习内部注意力和相互注意力,最后输入到神经网络非线性层形成最终输出,预测了流行度演化的高峰时间。实验表明,本文所设计的方法中的绝对误差中值比NAM、SVR、SpikeM、BLR等基线方法要低。这不仅证明了通过多模态深度学习方法来学习高级特征的有效性,也证明了本文所设计的预测方法具有更优的预测效果。再次,针对基于多因素指标的流行度演化分析与预测的问题,利用事件库获取多因素指标,提出了一种基于事件库多因素耦合的流行度预测方法。通过利用事件库对于社交网络数据的统一存储,从多源异构数据中提取各因素指标。在此基础上,提出了一种分组嵌入的方法。基于深度学习的嵌入方法为时间序列数据的降维与融合提供了可能。根据因素的物理意义与特征将因素分组为累积性因素和固有性因素。然后分别采用不同的神经网络进行嵌入得到这些因素指标的地位表示,并在此基础上提出了预测方法。本研究所提出的方法在因素选取、因素抽象化定义、因素分组、因素指标数据获取和指标数据综合利用等方面实现了创新设计。实验表明,与已有的深层神经网络模型、支持向量回归机、SH流行度预测模型等相比,本研究所提出的预测方法相比现有模型在预测准确度上具有明显的优越性。最后,设计并实现了流行度分析预测平台。利用本文提出的模型和方法,实现了事件流行度分析预测功能。案例验证了本文的研究成果,取得了良好的应用效果。