论文部分内容阅读
目前,对于微博用户领域的意见领袖挖掘多以用户属性关系、网络传播以及文本信息交互这三个方面进行单领域的研究,但是三者没有真正得到有效的融合,缺乏结合微博文本情感的研究,同时研究多采用静态分析的方法。本文针对研究中存在的不足,从用户属性、微博信息传播规律及微博文本情感倾向角度出发,分别对意见领袖挖掘的相关问题进行了研究,并提出以下算法:第一,基于改进后的TFN-AHP的微博用户属性特征提取算法。该算法通过构造模糊精度矩阵和采用闭区间[0,1]的实数作为模糊判断矩阵标度值,避免了传统TFN-AHP算法中将某一属性特征权重武断判定为0的错误;同时使用可控迭代精度的迭代方法计算特征向量,使算法的时间复杂度从传统的4O(n)降低为2O(n),并基于该算法提取了微博用户属性特征向量。第二,基于微博信息传播的微博用户影响力分析算法。算法通过大量数据研究微博信息的传播规律,以微博被转发和被评论的累积数量为微博传播能力的衡量指标,以微博传播为用户影响力扩散的载体,建立了微博用户影响力随微博传播时间变化成指数截断性的幂律分布的算法模型,实现了对用户影响力的动态研究,并通过实验发现微博热度和微博用户属性值对用户影响力有决定作用。第三,基于词性标注序列模式匹配的微博情感倾向度算法(简称POSTSPM算法)。算法将微博文本看作由若干单词组成的有序词性序列组合,在对序列进行词性标注和化简的基础上,保留了决定情感倾向的词性序列,并结合HowNet情感分析词集,通过采用滑动窗口规则对词性标注序列依次进行模式匹配,最终得到整段微博文本的情感倾向度,且准确率较高。最后,考虑微博意见领袖的动态变化,结合上述三种算法提出了在特定话题下基于时间窗口的微博意见领袖挖掘算法,该算法将话题下微博持续讨论的时间周期划分成若干连续的子窗口,根据微博用户在每个子窗口内的影响力排名和微博文本情感倾向综合筛选出最终的意见领袖,所得结果较好,可以运用于微博意见领袖挖掘。