论文部分内容阅读
微博作为一种新兴的社交媒体与信息交流平台,近几年得到了飞速的发展和广泛的应用,相比之下微博信息的分析与挖掘还处于起步阶段。微博信息具有海量、短小、不规范、重复度大等特征,传统的信息分析方法难以满足微博信息分析的需求。正是在这种背景下,本文引入文本聚类方法,并针对微博信息的特点展开研究和试验,目的是能够将内容相近或相似的微博聚集到一起,识别出微博话题。这样不仅能够实现信息的有效组织,节省用户查看微博的时间,而且对微博舆情的预警也有一定的帮助作用。本文主要完成了以下几个方面的工作。首先分析了微博文本信息的特点,并根据其特点研究了常用的微博信息分析方法,比较了各种方法的优缺点并确定本文基于文本聚类的研究方案。其次,针对微博信息的特点和处理效率等因素,设计了基于文本聚类的微博信息处理流程,包括微博文本预处理、微博文本表示及聚类处理;接着,对文本表示方法和文本聚类算法进行了深入的分析,选择向量空间模型描述微博文本,选择k-means算法实现微博文本聚类,讨论了微博信息处理流程的具体实现,最后,在经过预处理的微博数据基础上展开试验,并深入讨论了特征维数和距离对聚类结果的影响。本文的研究工作表明,采用“最小最大原则”能够较好地克服k-means算法对初始点敏感的问题;在文本相似度的计算上,余弦距离比欧氏距离更加适用于微博文本的聚类,最终能够获得较高的正确率和召回率,因此从实践上论证了k-means文本聚类算法对微博信息分析的可行性和合理性,并为微博信息的深度分析和后续应用系统的开发提供了基础。本文的研究工作对微博舆情监控等方面的应用开发有着重要的参考意义。