论文部分内容阅读
Web2.0中各种新型网络技术的出现,促使互联网飞速发展。网络体验已由单纯从网络获取信息转变为用户参与的新型模式。众多社会网络媒体平台凭借这种交互型理念迅速崛起,而微博无疑是众多异彩纷呈的平台群体中最具新网络时代特色的突出代表。微博中包含大量主观情感内容,对其经过处理后,可用于诸如商业产品口碑分析、民意倾向趋势预测以及舆情负面信息发现等众多实际应用中。此外对微博中的影响传播过程进行研究,了解传播过程中怎样的节点,凭借何种因素才能成为强力传播节点,对于舆情有效管控具有重大的意义。本文主要研究了中文微博的情感分析和影响力最大化估计,其贡献包括以下三个方面:(1)利用微博的内容和上下文信息进行中文微博情感分析研究,提出了一种基于树结构的中文微博情感倾向性分析方法。针对中文微博中出现的主谓缺失、书写随意、主题发散、情感漂移等问题,该方法首先对微博进行树集合结构初始化构造;然后,对数结构进行动态自调整;最后,利用动态自调整后的树集合对微博进行情感倾向性判断。实验结果表明,该方法有效地提高了分类准确度并改善了情感漂移问题。(2)微博文本的自身特点使得传统自动文摘并不完全适用于微博,本文提出了一种基于最短路径的中文微博情感文摘方法,针对中文微博中出现的微博数据量庞大、文本长度短、冗余量大等问题,该方法首先采用基于最短路径的子话题标签方法对微博内容的子话题标签进行抽取;然后,对情感特征进行抽取;最后,将子话题标签和情感特征结合起来生成情感文摘。实验结果表明,该方法可以有效降低信息冗余,增强文摘可读性。(3)现有影响力最大化估计主要是基于节点度的研究,本文将内容和情感信息加入传播过程分析中,提出一种基于内容和情感的微博影响力最大化估计方法。首先,抽取主题标签并利用抽取的标签对微博用户进行分类;然后,计算不同主题下用户的初始影响力分值,根据得分选取初始节点集合;最后,对影响力传播过程中的影响因子做出改进,通过贪心算法进行节点搜索计算获得被激活节点的最大化范围。实验结果表明,该方法能有效提高被激活节点影响范围,并更接近实际影响力传播情况。