论文部分内容阅读
互联网技术的快速发展,大大地加快了信息传播的速度和广度。以好友圈的方式进行信息传播的社交媒介,例如微博、Twitter、Facebook、微信等,具有信息发布门槛低、信息交互便捷等特点,其所导致的信息传播速度,远非以往媒介所能比拟。此外,近年来移动设备的大量普及使得信息在人群中的传播变得更加的及时和广泛。因此,信息的传播机制、传播模式和演变过程在社会舆论、产品营销、企业和个人形象等方面都有着重要的意义。本文的工作是研究社交网络中的信息传播模式挖掘问题,并在主题的维度上分析信息传播模式与主题之间的关系。对于社交网络中的传播模式挖掘问题本质是频繁子图挖掘问题,更具来说是多标签的频繁子树挖掘问题。因此,本文的工作分为两块:第一,结合主题的信息传播模式建模;第二,发现传播模式的频繁子树挖掘算法。首先,文章对多标签的信息传播树进行建模,采用词相似性模型对用户标签进行归类,以更加准确的对用户的兴趣爱好进行描述,并把标签和树的拓扑结构结合起来,采用合理的方式对树进行编码和存储。在此基础上,借鉴传统的频繁子树挖掘算法,本文设计了多标签频繁子树挖掘算法MLTreeMiner,该算法适用于有根节点的无序树,并且适用于树中每个节点具有多个标签的情况。然后,采用LDA (Latent Dirichlet Allocation)主题模型对传播的信息进行建模,在主题层面对每条信息的内容进行表达。最后,在主题维度上分析信息传播模式和主题之间的关系。在实验部分,本文通过在人工生成的数据集和新浪微博的真实数据集上进行实验验证。首先,在人工生成的数据集上对MLTreeMiner算法进行验证,测试了剪枝策略对算法执行的效率的影响,结果表明加上剪枝策略算法的执行效率有了明显的提高:并在单标签和多标签两个数据集上对算法的效率进行比较,虽然多标签的情况要比单标签的情况效率低,但是它可以挖掘到更多的频繁子树。然后,在新浪微博的真实数据集上进行传播模式的挖掘,在给定的支持度下可挖掘到不同节点数下的各种频繁传播模式;同时,对信息主题进行建模,通过每个主题下词的分布说明LDA主题模型对文本主题提取的合理性;最后通过分析主题和传播模式之间的关系得到每个传播模式下主题的分布情况,并结合实际情况分析其意义。