社交网络中结合主题的信息传播模式挖掘

被引量 : 1次 | 上传用户:liulang_6699
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网技术的快速发展,大大地加快了信息传播的速度和广度。以好友圈的方式进行信息传播的社交媒介,例如微博、Twitter、Facebook、微信等,具有信息发布门槛低、信息交互便捷等特点,其所导致的信息传播速度,远非以往媒介所能比拟。此外,近年来移动设备的大量普及使得信息在人群中的传播变得更加的及时和广泛。因此,信息的传播机制、传播模式和演变过程在社会舆论、产品营销、企业和个人形象等方面都有着重要的意义。本文的工作是研究社交网络中的信息传播模式挖掘问题,并在主题的维度上分析信息传播模式与主题之间的关系。对于社交网络中的传播模式挖掘问题本质是频繁子图挖掘问题,更具来说是多标签的频繁子树挖掘问题。因此,本文的工作分为两块:第一,结合主题的信息传播模式建模;第二,发现传播模式的频繁子树挖掘算法。首先,文章对多标签的信息传播树进行建模,采用词相似性模型对用户标签进行归类,以更加准确的对用户的兴趣爱好进行描述,并把标签和树的拓扑结构结合起来,采用合理的方式对树进行编码和存储。在此基础上,借鉴传统的频繁子树挖掘算法,本文设计了多标签频繁子树挖掘算法MLTreeMiner,该算法适用于有根节点的无序树,并且适用于树中每个节点具有多个标签的情况。然后,采用LDA (Latent Dirichlet Allocation)主题模型对传播的信息进行建模,在主题层面对每条信息的内容进行表达。最后,在主题维度上分析信息传播模式和主题之间的关系。在实验部分,本文通过在人工生成的数据集和新浪微博的真实数据集上进行实验验证。首先,在人工生成的数据集上对MLTreeMiner算法进行验证,测试了剪枝策略对算法执行的效率的影响,结果表明加上剪枝策略算法的执行效率有了明显的提高:并在单标签和多标签两个数据集上对算法的效率进行比较,虽然多标签的情况要比单标签的情况效率低,但是它可以挖掘到更多的频繁子树。然后,在新浪微博的真实数据集上进行传播模式的挖掘,在给定的支持度下可挖掘到不同节点数下的各种频繁传播模式;同时,对信息主题进行建模,通过每个主题下词的分布说明LDA主题模型对文本主题提取的合理性;最后通过分析主题和传播模式之间的关系得到每个传播模式下主题的分布情况,并结合实际情况分析其意义。
其他文献
嵌入式网络视频监控系统是一种以嵌入式技术、视频压缩编码技术和网络传输控制技术为核心的新型视频监控系统。它在稳定性、实时性、处理速度、功能、价格、扩展性等方面和传
中立型时滞神经网络不仅是一种考虑过去状态,而且还特别考虑过去状态的变化对现在状态的影响的时滞神经网络。近年来,越来越多的学者注意到中立型现象是不容忽视的,近两年对
Web服务是基于网络的、分布式的模块化构件,应用程序或其它Web服务可以发现并调用部署后的Web服务。单个Web服务的功能粒度有限,组合Web服务通过组合不同提供者提供的原子服
随着计算机技术及网络技术的快速发展,人们越来越多地借助Internet进行各种活动,代理服务器技术在Internet和Intranet上已经得到了很广泛的应用,但同时普通的代理服务器也很
近年来,信息技术的飞速发展,使得各行各业的信息系统中都积累了大量而丰富的数据。时态数据是其中重要的一类,它大量存在于新闻系统、医疗信息系统、交通系统等应用领域,且在
随着计算机软硬件技术的发展,特别是Internet的出现,计算机在企业生产经营中起着越来越重要的作用。许多企业开始实施企业资源计划(Enterprise Resource Planning, ERP)、客
机动车辆牌照识别系统是智能交通应用领域的重要研究课题之一,牌照定位、字符分割和字符识别是此系统中的三个主要组成部分。本文在分析和研究了当前车辆牌照识别系统的研究
学位
时间规划是人工智能所涉及的特殊的规划领域,它是以时间关系约束作为推理依据。现实生活中,很多和时间有关的问题都可以用时间规划进行研究。该问题是NP难度的问题。  D-时
随着后PC时代的到来以及Internet的不断发展,人们对嵌入式产品的需求不断增加,嵌入式系统已经成为研究的热点。开发一个采用国产嵌入式微处理器的教学实验平台不仅可以帮助开