论文部分内容阅读
随着Web2.0的迅速发展,越来越多的网民习惯通过论坛(BBS)、博客(Blog)等网络载体对一些事物或事件发表自己的观点。这些存储分散、观点各异的离散文本(Discrete Text)构成了一种包罗万象的网络舆情。对离散文本中所包含的情感极性进行定性定量分析,是掌握网民对相关事物或事件的态度和网络舆情的重要途径。在此基础上,对随时间变化的舆情进行聚类分析,并将其结果可视化,可以直观地呈现舆情发展趋势,这是许多领域共同关注的热点问题。综上所述,以情感极性分析为线索、以聚类分析为依据、以观点挖掘为策略、最终实现舆情分析之目标。目前,对中文文本的观点挖掘研究较晚,很多基础性工作仍然在进行中。针对网络离散文本的舆情分析研究工作也仅处于起步阶段,本文针对离散文本的特点,对离散文本进行舆情聚类分析。本文选取离散文本中的博客文本标题和摘要作为研究对象。博客文本情感表达丰富,并且其极性分布非常分散,因此获得博客文本的核心语义或者集中概念难度较大;而标题和摘要包含的情感词较少,所表达的概念相对集中。因此选取博客搜索结果的标题和摘要作为最终研究对象是加速聚类收敛的重要措施。本文实验主要分为博客文本舆情聚类分析和聚类结果评价两个部分。其中,博客文本舆情聚类分析包含基于概念的舆情聚类分析模型和聚类结果可视化。本文通过改进传统的向量空间模型(VSM),引入词语的概念,采用基于概念的向量空间模型来表示博客文本(标题和摘要),提高文本表示精度。分别使用基于概念和传统的向量空间模型表示文本,采用k-means算法进行聚类分析,并可视化和评价聚类结果。其中传统向量空间模型作为对比组来评价基于概念的舆情聚类分析模型性能。聚类结果评价采用Ground Truth模型,选取常用的三个度量精度(Precision)、熵(Entropy)和边缘索引(Rand Index)来评价聚类结果。实验证明基于概念的向量空间模型比传统基于词语的向量空间模型在离散文本舆情聚类上具有更好的性能。