论文部分内容阅读
随着计算机网络科学以及社交网络的迅速发展,网络用户数量的规模呈指数式爆炸增长,网络上用户、事件、舆论等相关数据海量增加。新浪、搜狐等大型网站的微博等,成为人们信息传播与获取的主要平台。伴随着信息化建设的高速发展,政府决策者和相关职能部门的管理者对网络媒体的舆论导向提出需求,使网络舆论的发现及管理成为需要解决的问题。因此,近年来关于在线舆情管理的相关研究和实践也取得了很大的进展,目前的研究主要是关于网络舆情信息发现的研究,其数据来源各种各样,数据量大小不统一,国内外学者的研究主要针对Twitter、新浪等社交媒体,并侧重方法的研究。本文的研究主要集中在我国微博社交媒体的舆情信息组织管理及数据挖掘,其研究主要遵循网络舆情的生命周期结构与发展过程的规律,立足于网络受众的群体观点形成理论,研究内容包括以下几个方面:(1)基于社交网络的舆情信息搜索和抽取研究。明确界定社交网络舆情信息的概念,系统分析了网络舆情信息的产生范围、来源、特点。在此基础上,确定了本文研究的数据来源,即社交网络媒体新浪微博各舆情多发的主题栏目,获取方式是爬取或API端口获得;同时,提出了按照网络舆情事件归纳的主题意见对称词方式来搜索和组织舆情信息,建立了基于受众个性化行为搜索的舆情检索方式,建立了舆情信息的搜索、清洗、抽取、存储的方法,为社交网络舆情信息组织管理提供了有效方法。(2)社交网络舆情群体受众偏好的建模和挖掘研究。网络主体兴趣与价值取向往往成为引发网络舆情的重要前提。本文通过微博内容的分析,从舆情事件中个体的角度建立微博受众偏好模型,达到控制把握具有微博受众个性特征的关注度;本文建立了微博信息的文本特征向量的表示方式,构建了由微博特征词及其对应权值的微博文本特征向量空间,建立了舆情群体受众的偏好的文本SVM多分类模型。(3)社交网络舆论事件中意见领袖的发现方法研究。意见领袖在社交网络舆情生命周期中产生极其重要的作用。本文采用受众评论文本信息间的文本相似性及情感相似性建立受众关系网络,对每个节点进行累计积分,提出了在建立的框架体系内积分值最高的受众即是最有言论影响力的意见领袖的挖掘方法。根据最新社交网络的栏目主题结构,构建了独立主题及复杂交叉主题复杂网络意见领袖挖掘模型,并通过实验验证该方法在社交网络舆情意见领袖挖掘过程的有效性。(4)社交网络舆情中社群意见及社群结构的发现方法研究。本文基于LDA算法对评论文本的情感和区域分布进行挖掘,产生了社群意见,并采用交叉熵方法对社群结构挖掘。在社群意见发现模型的建立中,提出了采用构造情感语句树方法挖掘网络舆情文本信息中正向最大倾向语句,该方法通过主题模型迭代提炼受众群体意见的主题词。最后,对社交网络群体意见及结构挖掘模型的有效性也进行了实验验证。