论文部分内容阅读
随着Web2.0技术的诞生和迅速发展,互联网进入了在线社交网络的时代。由于信息发布、传播的开放性和自由性,在线社交网络中的信息传播活跃性达到前所未有的高度。研究在线社交网络的信息传播规律,不仅有助于加深对网络结构和用户群体行为的认识,也能有助于引导在线社会网络舆情,因而具有重要的理论价值和研究意义。在线社交网络具有主题多样性、动态演化性、数据规模海量性、高噪音性和非线性等特点,因此在分析方法和计算模型上都与传统社交网络具有很大差别。本文以舆情分析为应用背景,在分析研究现状的基础上,针对在线社交网络中的社会关系中的主题多样性和动态演化性、数据的高噪音性、数据规模的海量性和话题热度变化的非线性进行了研究。本文主要的研究工作和贡献如下:1.研究了面向微博的社会关系信息抽取问题,针对社会关系中的主题多样性和动态演化性,提出了一种主题和时间敏感的连接强度在线计算模型。在线社交网络中的信息传播更多构建于社会关系之上。一方面,用户之间的通信主要是以电子文本的形式进行的,而文本是与主题相关的,这意味着社交网络中的个体间连接具有主题多样性。另一方面,社交网络是一个动态的网络,个体间的连接强度和信息内容是随着时间而不断演化的。已有方法大多没有同时考虑上述两个特性,影响了用户传播行为预测模型的精度。针对已有方法的不足,本文将用户之间通信历史记录中的主题和时间两个因素结合起来,提出了一种主题和时间敏感的连接强度计算模型。实验结果证明,相对于已有模型,本文提出的连接强度在线计算模型不仅在用户传播行为预测的准确性方面有明显提升(提升幅度达33%左右),还能有效地发现微博用户中的“主题好友”和“个人好友”。2.研究了面向信息传播的微博用户兴趣信息抽取问题,针对微博文本中存在的高噪音性,提出了一种结合微博特征的微博用户兴趣发现方法。微博文本具有篇幅短、规范性差、新词泛滥等高噪音性,导致基于传统信息抽取技术的用户兴趣发现方法无法发挥到良好的效果。本文为通过微博文本发现微博用户兴趣,提出一种微博用户兴趣关键词抽取方法。用户兴趣关键词是指微博文本中最能反映用户兴趣的词语集合。该方法首先针对微博篇幅短的特点,将每名用户的所有微博文档合成一个长文档,接着利用微博文档中的转发数、标签和发布时间等特征设计了候选兴趣关键词的特征,再使用机器学习的分类算法,有效地抽取出用户兴趣关键词,实现了用户兴趣的发现。通过微博用户分类对本文提出的用户兴趣发现效果进行检验。实验结果证明,本文提出的用户兴趣发现方法准确率达到89.79%,在性能上比已有方法提升了约20%。在基于用户兴趣关键词的微博用户分类中,由于能有效排除微博中无意义的词汇,因而相对于传统方法,分类准确率能达到91.26%,性能提升了18.7%。3.研究了新型社交网络应用“微群”中信息传播机制,针对数据海量性和社会关系隐藏性,提出了一种结合连接强度和用户兴趣的用户传播行为动态预测模型。微群是微博客社交网站中的一种类似“QQ群”的新型社交网络应用,近年来发展迅速。这类应用将微博与电子公告板两者的特点结合起来,形成了新的传播机制。在微群中,连接强度和用户兴趣共同影响着微博用户信息交互行为。另外,由于微群的数量及其成员规模庞大并且社会关系隐藏在海量的回复关系,因此微群具有数据海量性和社交关系隐藏性的特点。针对微群以上特性,本文提出一种结合连接强度和用户兴趣的用户传播行为动态预测模型。该模型先基于用户平时发布的微博与给定话题的内容相似度,度量用户对目标话题的个人兴趣度,再利用用户之间的回复关系构建与话题相关的影响力网络,然后基于自重启随机游走的话题兴趣度排序方法预测用户传播行为。该模型在内容相似性度量中,基于LDA(Latent Dirichlet Allocation)模型的文本表示方法,有效克服了传统基于“词袋”的方法所带来的高维度弊端。此外,该方法利用相邻时间片文本数据具有相同语境的特点,实现动态更新话题内容,使预测模型能实时处理不断涌现文本流数据。实验结果证明:本文提出的动态预测模型在预测性能上优于已有的预测模型,性能提升幅度约35%左右。4.针对舆情话题热度变化的非线性,提出了一种基于改进型神经网络的话题热度预测模型。舆情话题是由突发事件引起的话题,其热度受到传统新闻媒体、话题内容本身和网络中的意见领袖、用户群体数量等多种因素的影响,具有非线性变化的特点。已有的预测模型大多基于传统统计模型,一般只适用于线性变化或周期性变化的话题。针对已有预测模型的不足,本文提出了一种基于改进型神经网络的话题热度预测模型。首先基于灰色关联度理论,发现意见领袖的影响力、回帖数和点击数均与话题热度存在很强的正相关性,进而利用神经网络对话题热度与上述因素之间的非线性关系进行建模和预测。此外,针对标准神经网络容易陷入局部最优解的不足,采用遗传算法优化神经网络模型,进一步提高了预测精度。实验结果表明,无论是相对于标准神经网络还是其它已有算法,本文提出的预测模型在话题热度预测方面都有明显的提升。综上所述,本文针对在线社交网络数据的特点,研究了面向在线社交网络舆情的信息传播分析技术,分别从微观层次和宏观层次分析了在线社交网络中信息传播规律,提出并实践了新的算法,对于在线社交网络中的信息传播建模和网络舆情有效引导具有重要的理论指导意义,同时对于市场营销和信息推荐等方面也具有重要的应用价值。