面向在线社交网络舆情的信息传播分析关键技术研究

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:hz_0752
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web2.0技术的诞生和迅速发展,互联网进入了在线社交网络的时代。由于信息发布、传播的开放性和自由性,在线社交网络中的信息传播活跃性达到前所未有的高度。研究在线社交网络的信息传播规律,不仅有助于加深对网络结构和用户群体行为的认识,也能有助于引导在线社会网络舆情,因而具有重要的理论价值和研究意义。在线社交网络具有主题多样性、动态演化性、数据规模海量性、高噪音性和非线性等特点,因此在分析方法和计算模型上都与传统社交网络具有很大差别。本文以舆情分析为应用背景,在分析研究现状的基础上,针对在线社交网络中的社会关系中的主题多样性和动态演化性、数据的高噪音性、数据规模的海量性和话题热度变化的非线性进行了研究。本文主要的研究工作和贡献如下:1.研究了面向微博的社会关系信息抽取问题,针对社会关系中的主题多样性和动态演化性,提出了一种主题和时间敏感的连接强度在线计算模型。在线社交网络中的信息传播更多构建于社会关系之上。一方面,用户之间的通信主要是以电子文本的形式进行的,而文本是与主题相关的,这意味着社交网络中的个体间连接具有主题多样性。另一方面,社交网络是一个动态的网络,个体间的连接强度和信息内容是随着时间而不断演化的。已有方法大多没有同时考虑上述两个特性,影响了用户传播行为预测模型的精度。针对已有方法的不足,本文将用户之间通信历史记录中的主题和时间两个因素结合起来,提出了一种主题和时间敏感的连接强度计算模型。实验结果证明,相对于已有模型,本文提出的连接强度在线计算模型不仅在用户传播行为预测的准确性方面有明显提升(提升幅度达33%左右),还能有效地发现微博用户中的“主题好友”和“个人好友”。2.研究了面向信息传播的微博用户兴趣信息抽取问题,针对微博文本中存在的高噪音性,提出了一种结合微博特征的微博用户兴趣发现方法。微博文本具有篇幅短、规范性差、新词泛滥等高噪音性,导致基于传统信息抽取技术的用户兴趣发现方法无法发挥到良好的效果。本文为通过微博文本发现微博用户兴趣,提出一种微博用户兴趣关键词抽取方法。用户兴趣关键词是指微博文本中最能反映用户兴趣的词语集合。该方法首先针对微博篇幅短的特点,将每名用户的所有微博文档合成一个长文档,接着利用微博文档中的转发数、标签和发布时间等特征设计了候选兴趣关键词的特征,再使用机器学习的分类算法,有效地抽取出用户兴趣关键词,实现了用户兴趣的发现。通过微博用户分类对本文提出的用户兴趣发现效果进行检验。实验结果证明,本文提出的用户兴趣发现方法准确率达到89.79%,在性能上比已有方法提升了约20%。在基于用户兴趣关键词的微博用户分类中,由于能有效排除微博中无意义的词汇,因而相对于传统方法,分类准确率能达到91.26%,性能提升了18.7%。3.研究了新型社交网络应用“微群”中信息传播机制,针对数据海量性和社会关系隐藏性,提出了一种结合连接强度和用户兴趣的用户传播行为动态预测模型。微群是微博客社交网站中的一种类似“QQ群”的新型社交网络应用,近年来发展迅速。这类应用将微博与电子公告板两者的特点结合起来,形成了新的传播机制。在微群中,连接强度和用户兴趣共同影响着微博用户信息交互行为。另外,由于微群的数量及其成员规模庞大并且社会关系隐藏在海量的回复关系,因此微群具有数据海量性和社交关系隐藏性的特点。针对微群以上特性,本文提出一种结合连接强度和用户兴趣的用户传播行为动态预测模型。该模型先基于用户平时发布的微博与给定话题的内容相似度,度量用户对目标话题的个人兴趣度,再利用用户之间的回复关系构建与话题相关的影响力网络,然后基于自重启随机游走的话题兴趣度排序方法预测用户传播行为。该模型在内容相似性度量中,基于LDA(Latent Dirichlet Allocation)模型的文本表示方法,有效克服了传统基于“词袋”的方法所带来的高维度弊端。此外,该方法利用相邻时间片文本数据具有相同语境的特点,实现动态更新话题内容,使预测模型能实时处理不断涌现文本流数据。实验结果证明:本文提出的动态预测模型在预测性能上优于已有的预测模型,性能提升幅度约35%左右。4.针对舆情话题热度变化的非线性,提出了一种基于改进型神经网络的话题热度预测模型。舆情话题是由突发事件引起的话题,其热度受到传统新闻媒体、话题内容本身和网络中的意见领袖、用户群体数量等多种因素的影响,具有非线性变化的特点。已有的预测模型大多基于传统统计模型,一般只适用于线性变化或周期性变化的话题。针对已有预测模型的不足,本文提出了一种基于改进型神经网络的话题热度预测模型。首先基于灰色关联度理论,发现意见领袖的影响力、回帖数和点击数均与话题热度存在很强的正相关性,进而利用神经网络对话题热度与上述因素之间的非线性关系进行建模和预测。此外,针对标准神经网络容易陷入局部最优解的不足,采用遗传算法优化神经网络模型,进一步提高了预测精度。实验结果表明,无论是相对于标准神经网络还是其它已有算法,本文提出的预测模型在话题热度预测方面都有明显的提升。综上所述,本文针对在线社交网络数据的特点,研究了面向在线社交网络舆情的信息传播分析技术,分别从微观层次和宏观层次分析了在线社交网络中信息传播规律,提出并实践了新的算法,对于在线社交网络中的信息传播建模和网络舆情有效引导具有重要的理论指导意义,同时对于市场营销和信息推荐等方面也具有重要的应用价值。
其他文献
本文从英语教学中思维能力培养的必要性着眼,从词汇、阅读和语法教学三方面进行案例分析,也对如何进行思维能力培养进行了反思。当我们将英语教学由记忆理解水平提升到思维水
企业战略指引企业发展方向。计划管理为企业经营管理提供了明确的目标。二者都是企业生存与发展必不可少的要素,协调好二者的关系,可减少风险损失,提高经济效益。本文就二者
Viterbi算法是一种基于图的动态规划算法,用于解决最短路径问题。针对当前网站排序算法对网站排名存在忽略网站主题、新站点排名无法超越旧站点等问题,提出了一种改进算法。
目的:制备注射用哌拉西林钠/他唑巴坦钠(4:1),并建立相应的质量控制方法。方法:采用无菌分装法制备注射用哌拉西林钠/他唑巴坦钠(4:1),高效液相色谱法测定其有关物质和含量,
<正>鹤在中国传统文化中有着崇高的地位,象征圣洁、清雅。因为鹤是一种比较长寿的鸟类,所以又是长寿的象征。中国是鹤类种数最多的国家,世界上15种鹤类中就有9种分布于中国,
近年来中国影视产业发展迅猛,而影视文化出口贸易确长期处于逆差,主要表现在出口规模较小,贸易逆差不断扩大,出口市场集中,出口作品题材单一,缺乏国际竞争力。究其原因,阻碍
由于我国铁路长期采用客货共线的运输组织模式,通过能力损失严重。在这种背景下,2008年我国颁发了《中长期铁路网规划》的调整方案,提出到2020年主要繁忙干线实现客货分线的
农村基层党组织是党在农村工作的基础,关系到党关于农村工作的一系列方针政策的贯彻执行。通过回顾农村基层党组织在不同历史阶段的角色定位及作用,分析了在精准扶贫背景下农
通过对太原二电厂11号FGD现场168运行数据采用一元非线性回归分析和基于距离判别法的多元非线性回归分析两种不同的分析方法,利用最小二乘曲线拟合法建立了不同出口SO2浓度范
目的:总结治疗药物监测在精神科应用的临床经验。方法:回顾国内外治疗药物监测在精神科发展的历史,结合临床经验对4例个案进行分析:患者氯丙嗪中毒后出现浓度反弹,通过监测药